Scrapy爬虫（3）爬取中国高校前100名并写入MongoDB-阿里云开发者社区

Scrapy爬虫（3）爬取中国高校前100名并写入MongoDB

2017-11-28 1490

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在以前的分享中，我们利用urllib和BeautifulSoup模块爬取中国高校排名前100名并将其写入MySQL.在本次分享中，我们将会用到Scrapy和BeautifulSoup模块，来爬取中国高校排名前100名并将其写入MongoDB数据库。

在以前的分享中，我们利用urllib和BeautifulSoup模块爬取中国高校排名前100名并将其写入MySQL.在本次分享中，我们将会用到Scrapy和BeautifulSoup模块，来爬取中国高校排名前100名并将其写入MongoDB数据库。爬取的网页为:http://gaokao.xdf.cn/201702/10612921.html, 截图如下（部分）：
这里写图片描述
首先登陆MongoDB数据库，创建好testdb数据库和university_rank集合（collection）。然后开始着手写Scrapy爬虫。
完整的Python代码如下：

#import modules
import bs4
import scrapy
import pymongo
from bs4 import BeautifulSoup
from pymongo import MongoClient

class UniversityRankSpider(scrapy.Spider):
    name = "university-rank"  #name of spider
    start_urls = ['http://gaokao.xdf.cn/201702/10612921.html',]  #url of website

    def parse(self, response):  #parse function
        content = response.xpath("//tbody").extract()[0]
        soup = BeautifulSoup(content, "lxml")  #use BeautifulSoup      
        table = soup.find('tbody')
        count = 0 
        lst = []   # list to save data from the table
        for tr in table.children:  #BeautifulSoup grammmer
            if isinstance(tr, bs4.element.Tag):
                td = tr('td')
                if count >= 2:  #ingore the first line
                    lst.append([td[i]('p')[0].string.replace('\n','').replace('\t','') for i in range(8)])
                count += 1

        conn = MongoClient('mongodb://localhost:27017/')  #connect mongodb
        db = conn.testdb

        for item in lst:  #insert data into university_rank table
            db.university_rank.insert([
            {'rank':'%s'%item[0], 'university':'%s'%item[1], 'address':'%s'%item[2], 'local_rank':'%s'%item[3],
                 'total grade':'%s'%item[4], 'type':'%s'%item[5], 'star rank':'%s'%item[6], 'class':'%s'%item[7]},
        ]) 

        print 'Successfully downloading data from website, and write it to mongodb database!'

Scrapy爬虫的运行结果如下：
这里写图片描述
接下来我们去robo3t中查看mongodb数据库，其中的university_rank集合如下：

Bingo，我们成功地把数据写入了mongodb数据库！

本次分享到此结束，欢迎大家批评与交流~~

Scrapy爬虫（3）爬取中国高校前100名并写入MongoDB

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Scrapy爬虫（3）爬取中国高校前100名并写入MongoDB

热门文章

最新文章

相关课程

相关电子书

推荐镜像