开发者社区> 问答> 正文

Nutch从搜索引擎到网络爬虫


开源力量公开课第三十一期- Nutch:从搜索引擎到网络爬虫


开源力量公开课,每周二晚线上线下同时开课,让我们一起向IT技术大牛们学习!
课程题目: 开源力量公开课第三十一期- Nutch:从搜索引擎到网络爬虫

开课时间:2013年9月17日 19:00 - 21:30

现场或线上参课: http://www.osforce.cn/uncategorized/1703.html
现场参加(免费):北京市海淀区海淀西大街70号 , 3W咖啡二楼(海淀图书城籍海楼对面) (上海的同学注意了!:本期公开课在北京举行,不在上海,上海的同学需要通过线上参与)
线上直播(免费):邮件报名后将即时提供线上参课网址

报名:
发邮件到 osf@osforce.cn ,邮件标题:开源力量公开课第30期, 邮件正文:在线或现场 姓名 公司 职位 联系电话
邮件报名后,我们将即时回复线上参课网址
若未收到不要前往现场的邮件,默认表示通过
不接受未报名空降,拒绝放鸽子


课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现。

课程大纲:
1、Nutch是什么?
Nutch是Apache旗下的Java开源项目,最初是一个搜索引擎,现在是一个网络爬虫。
2、Nutch的设计初衷?
商业搜索引擎不开源,搜索结果不纯粹是根据网页本身的价值进行排序,而是有众多商业利益考虑。Nutch提供了开源的解决方案,帮助人们很容易地建立一个搜索引擎,为用户提供优质的搜索结果,并能从一台机器扩展到成百上千台。
3、为什么要学习Nutch?
搜索技术是信息时代的必备技术之一,没有搜索功能的软件是无法想象的,而搜索引擎是搜索技术的集大成者。通过Nutch的学习,可以对百度、谷歌这样的搜索巨头的内部机制有所了解,并能根据自己的需要打造适合自己的搜索引擎,当然,也可以把搜索技术应用到几乎所有的软件开发中
4、Nutch的设计目标 ?
每个月抓取几十亿网页
为这些网页维护一个索引
对索引文件执行每秒上千次的搜索
提供高质量的搜索结果
以最小的成本运作
5、Nutch的发展历程?
11年发展历程,3大分支版本
强调重用,诞生了Java开源项目Hadoop、Tika、Gora
不重新发明轮子,使用了大量第三方开源项目
6、Nutch的整体架构?
插件机制、数据抓取、数据解析、链接分析、建立索引、分布式搜索等。
对于一个搜索引擎来说,最终可能由成百上千台服务器组成,然而,初创公司最初可能只有几台机器作为尝试,随着公司的发展逐步增加机器,因此,线性可扩展的分布式存储与分布式计算是至关重要的。
Nutch参考了Google的两篇论文:MapReduce计算模型以及GFS存储模型,并做了实现,后来把这两大部分剥离出来形成独立的开源项目Hadoop。由此可知,Hadoop诞生于Nutch,核心由分布式计算和分布式存储组成,是MapReduce和GFS的JAVA开源实现。
Nutch使用HDFS作为存储实现一直持续了很多年,然而使用HDFS有许多限制,后来考虑对存储层进行抽象,剥离并形成了新的开源项目Gora,以支持多种存储技术,包括RDBMS和NoSQL。
对于搜索引擎来说,需要抓取各种各样的文件,解析这些不同格式的文件是一个难题,为了简化设计,也为了重用,于是诞生了Tika,一个专为内容分析而诞生的工具箱。
7、Nutch 3大分支版本?
Nutch1.2是一个完整的搜索引擎
Nutch1.7是一个基于HDFS的网络爬虫
Nutch2.2.1是一个基于Gora的网络爬虫
1.X系列可用于生产环境、2.X系列还不成熟
8、Nutch的应用领域?
站内搜索引擎、全网搜索引擎、垂直搜索引擎、数据采集
9、nutch的使用?
一些具体的实践方法及演示

讲师介绍:



杨尚川,系统架构设计师,系统分析师,2013年度优秀开源项目APDPlat发起人,资深Nutch搜索引擎专家。多年专业的软件研发经验,从事过管理信息系统(MIS)开发、移动智能终端(Win CE、Android、Java ME)开发、搜索引擎(nutch、lucene、solr、elasticsearch)开发、大数据分析处理(Hadoop、Hbase、Pig、Hive)等工作。目前为独立咨询顾问,专注于大数据、搜索引擎等相关技术,为客户提供Nutch、Lucene、Hadoop、Solr、ElasticSearch、HBase、Pig、Hive、Gora等框架的解决方案、技术支持、技术咨询以及培训等服务。

时间安排:
7:00 - 7:30: 个人介绍
7:30 - 9:30 : 讲课

开源力量公开课,每周二晚线上线下同时开课,让我们一起向IT技术大牛们学习!




--------------------------------------------------------------------------------








开源力量 | 向IT技术大牛们学习!




开源力量公开课 | 每周二晚线上线下同时开课




http://www.osforce.cn

展开
收起
开源 2013-09-11 11:29:54 11484 0
1 条回答
写回答
取消 提交回答
  • 您的无私奉献精神值得我们学习!向您致敬!
    2013-09-12 06:33:59
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Python第五讲——关于爬虫如何做js逆向的思路 立即下载
阿里云高级开发工程师高深在2018云栖大会·上海峰会中做了题为《网络视听规范化时代,视频AI破解直播违规难题》的分享,就视频内容审核、语音内容审核、复审及取证等方面的内容做了深入的分析。 立即下载
网络视听规范化时代,视频AI破解直播违规难题 立即下载