开发者社区> 问答> 正文

百万行数据如何进行稽核:报错

大家好,我这么在处理数据时遇到一个问题:

有一张表,每天会产生800万行日志,我现在将这张表每半小时读取一次,将日志表中缺少的字段补全后存入另外一张表,现在存在的问题是 日志中的数据有丢失的情况

分析后发现丢失数据的原因有如下几个:

    1.采集过程中数据量太大,读取oracle中数据时,报错快照过久,导致数据读取不完就丢失了。

    2.传输过程中采用udp协议,在传输过程中丢失。

请问,这种情况下,大数据如何进行数据稽核?

之前还未接触过数据仓库,不知道上面说的这种情况是否属于ETL的数据清洗、加载过程?能否通过ETL工具完成?

大家都来发表发表意见,oracle有什么好的解决办法,hbase有什么号的办法?


展开
收起
kun坤 2020-06-06 17:12:02 655 0
1 条回答
写回答
取消 提交回答
  • 不清楚你的需求。。。

    试试队列。。。

    哈哈 也不知道你能看明白不

    ######

    1.采集过程中数据量太大,读取oracle中数据时,报错快照过久,导致数据读取不完就丢失了。
    批量提交, 使用直接路径/*+ append */插入, 如果数据不是很重要的话,可以把表设置为nologging

    2.传输过程中采用udp协议,在传输过程中丢失。
    换成tcp协议

    ######

    1、什么是“报错快照过久”?

    2、udp的上层协议没有保证数据完整性的机制吗?

    ######

    http://www.oschina.net/p/apache+flume 然后做日志分析

    2020-06-06 17:12:07
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
双11万亿流量下的分布式缓存--Tiar技术揭秘 立即下载
微博DCP实现分钟级服务成倍扩容 立即下载
腾讯TB级别的海量日志监控平台 立即下载