开发者社区> 问答> 正文

上传数据到odps,数据不同步问题!!!

当往odps写数据的时候(组装两千条写一次),已经往odps上写了一半的数据,由于网络中断,本地程序无法获取到有多少已经成功导入odps,有没有那个大神提示一下这种情况怎么避免,麻烦给点建议。。。。。。
非常感谢!!!

展开
收起
乌龟男 2016-07-14 14:17:50 3789 0
1 条回答
写回答
取消 提交回答
  • MaxCompute 生态

    是用 tunnel 上传的吗?

    tunnel 的话,首先是有一个 UploadSession,由一个 session id 标识。每个 UploadSession 可以打开多个 RecordWriter,每个 RecordWriter 用一个 blockID 标识,每个 RecordWriter 在成功调用 close 的时候可以认为上传完毕。

    每个 UploadSession 以成功调用 commit 认为上传完毕。在 UploadSession.commit 之前,数据并不会真的进入 odps。

    从代码的角度,如果要做断点续传,首先应该记录 UploadSession 的 session id,在续传的时候可以使用这个 session id 重新构造 UploadSession。另外要记录哪些 block ID 已经成功 close,这些成功 close 的 blockID 无需再重复上传。对没有成功 close 的以及未来得及上传的 blockID 重新 openRecordWriter 进行上传。

    2019-07-17 19:56:14
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Data+AI时代大数据平台应该如何建设 立即下载
大数据AI一体化的解读 立即下载
极氪大数据 Serverless 应用实践 立即下载