大数据计算MaxCompute我读oss 数据 按分区。数据翻倍是什么情况啊?就是数据明显是重复了 一模一样的2条
有个问题 我的oss数据是5分钟更新一次 和这个有关系吗?
读取OSS数据时出现数据翻倍的情况可能与您的读取方式有关。当您直接使用OSS外部表来读取存储在OSS目录中的数据文件时,每次读取数据都会涉及OSS的I/O操作,可能会引发重复读同一条数据的问题。为了提升读取性能,推荐您在MaxCompute项目中创建一个与OSS外部表Schema相同的内部表,然后将OSS上的数据导入MaxCompute内部表,这样可以避免重复读取同样一条数据,从而提高数据处理效率。
至于您的数据每5分钟更新一次是否与问题有关,这取决于您的具体读取和写入逻辑。如果在同一时间周期内,数据的读取和写入操作没有做好相应的控制,可能会出现重复读取和写入的情况,从而导致数据翻倍。所以,对于频繁更新的数据,需要设置合适的数据同步策略,避免因同步频率过高导致的数据重复问题。
比如你说哪条数据多了,我看oss上也是csv文件,可以直接本地打开看下,这条数据是不是本身就是这样的。
因为oss外表的数据本身不存储在MaxCompute上,MaxCompute只是做了映射读出来,我理解不应该出现多数据的情况
有,源端数据是变化的,读出来的也不一样。 ,此回答整理自钉群“MaxCompute开发者社区2群”
您好,读取OSS数据出现重复的情况可能与您的MaxCompute配置有关。首先,您需要确认是否在导入数据前对MaxCompute进行了正确的授权。其次,检查您的数据导入方式是否正确,例如是否使用了正确的命令和参数。
关于您提到的5分钟更新一次的数据,如果每次更新都会导致数据翻倍,那么可能是更新操作导致了数据的重复插入。您可以检查一下更新操作的代码,看看是否有可能导致重复写入。
另外,网络连通性也可能影响MaxCompute访问OSS的数据的可达性。建议您检查一下MaxCompute与OSS之间的网络连接是否正常。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。