开发者社区> 问答> 正文

如何从海量网页中抽取出作者,时间,评论内容等信息?

hbase中有海量网页源代码,需要从海量源代码中精确抽取出【作者,时间,评论内容,点击数】等信息,请问,我该按照什么步骤,思路操作?

展开
收起
hyxt 2016-12-14 09:40:12 2224 0
2 条回答
写回答
取消 提交回答
  • 可以从hbase中批量读取数据,然后对数据进行抽取,网页的格式应该是固定的吧,这个就可以使用各种工具来完成;如果量比较大可以再写会hbase,不过一般情况下解析结果再mysql等关系数据库应该可以够存储了

    2019-07-17 20:33:48
    赞同 展开评论 打赏
  • 前端工程师

    可以用网页内容分析工具进行字段匹配,python有个Beautiful Soul库专门干这个的:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

    2019-07-17 20:33:48
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
视频内容理解的研究与实践 立即下载
OCR:图文结构理解探索和实践 立即下载
中美教育差异之观察 立即下载