Python爬虫采集CloudBlog网站的文章

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介:     本文通过使用python爬虫,来将一个网站中的文章获取下来,包括标题、发表时间、作者、文章内容等基本信息,并且将这些数据存储到数据库中,是一个非常完整的流程。获取首页所有的文章连接,并存放到URL集合中,然后再一个个的访问这些采集到的链接,来访问,并再次解析出文章详细的内容。

    本文通过使用python爬虫,来将一个网站中的文章获取下来,包括标题、发表时间、作者、文章内容等基本信息,并且将这些数据存储到数据库中,是一个非常完整的流程。获取首页所有的文章连接,并存放到URL集合中,然后再一个个的访问这些采集到的链接,来访问,并再次解析出文章详细的内容。 
     最近有个需求,需要采集金融财经类的新闻文章,获取首页所有的文章连接,并存放到URL集合中,  在本文中,以采集CloudBlog的博客文章为例,如下图所示,首先采集这个页面的信息,主要是先采集列表,从列表中获取URL。为防止重复访问,设置一个历史访问,用于对新添加的URL进行过滤。 解析DOM树,获取文章相关信息,并将信息存储到Article对象中。



采集号url之后,然后我们用爬虫去访问这个网址,循环读取,拿到这个详情页的标题、作者、发表时间和文章内容。以下图为例。 将Article对象中的数据保存到Mysql数据库中。 每完成一次数据的存储,计数器增加并打印文章标题,否则打印错误信息。 如果集合中的URL全部读取完或数据数量达到设定值,程序结束。



具体实现如下:
1、数据库结构


SET FOREIGN_KEY_CHECKS=0;

-- ----------------------------
-- Table structure for news
-- ----------------------------
DROP TABLE IF EXISTS `news`;
CREATE TABLE `news` (
  `id` int(6) unsigned NOT NULL AUTO_INCREMENT,
  `url` varchar(255) NOT NULL,
  `title` varchar(45) NOT NULL,
  `author` varchar(12) DEFAULT NULL,
  `date` varchar(25) DEFAULT NULL,
  `content` longtext,
  `zq_date` varchar(25) DEFAULT NULL,
  PRIMARY KEY (`id`),
  UNIQUE KEY `url_UNIQUE` (`url`)
) ENGINE=InnoDB AUTO_INCREMENT=122 DEFAULT CHARSET=utf8;


2、python代码

import re  # 网络连接模块
import bs4   # DOM解析模块
import pymysql  # 数据库连接模块
import urllib.request  # 网络访问模块
import time   #时间模块

# 配置参数
maxcount = 100  # 数据数量
home = 'https://www.tianfang1314.cn/index.html'  # 起始位置
# 数据库连接参数
db_config = {
    'host''localhost',
    'port''3306',
    'username''root',
    'password''123456',
    'database''news',
    'charset''utf8'
}

url_set = set()  # url集合
url_old = set()  # 过期url

# 获取首页链接
request = urllib.request.Request(home)
#爬取结果
response = urllib.request.urlopen(request)
html = response.read()
#设置解码方式
html = html.decode('utf-8')

soup = bs4.BeautifulSoup(html, 'html.parser')
pattern = '/blog/articles/\w+/\w+.html'
links = soup.find_all('a'href=re.compile(pattern))
for link in links:
    url_set.add(link['href'])

# 文章类定义
class Article(object):
    def __init__(self):
        self.url = None    #地址
        self.title = None   #标题
        self.author = None   #作者
        self.date = None     #时间
        self.content = None    #文章内容
        self.zq_date=None;     #文章采集时间

# 连接数据库
connect = pymysql.Connect(
    host=db_config['host'],
    port=int(db_config['port']),
    user=db_config['username'],
    passwd=db_config['password'],
    db=db_config['database'],
    charset=db_config['charset']
)
cursor = connect.cursor()

# 处理URL信息
count = 0
while len(url_set) != 0:
    try:
        # 获取链接
        url = url_set.pop()
        url='https://www.tianfang1314.cn'+url
        url_old.add(url)

        # 获取代码
        response = urllib.request.urlopen(request)
        html = response.read()
        # 设置解码方式
        html = html.decode('utf-8')

        # DOM解析
        soup = bs4.BeautifulSoup(html, 'html.parser')
        pattern = 'https://www.tianfang1314.cn/blog/articles/\w+/\w+.html'  # 链接匹配规则
        links = soup.find_all('a'href=re.compile(pattern))

        # 获取URL
        for link in links:
            if link['href'not in url_old:
                url_set.add(link['href'])

        # 数据防重
        sql = "SELECT id FROM news WHERE url = '%s' "
        data = (url,)
        cursor.execute(sql % data)
        if cursor.rowcount != 0:
            raise Exception('重复数据: ' + url)

        # 获取详情页的链接
        drequest = urllib.request.Request(url)
        # 爬取结果
        dresponse = urllib.request.urlopen(drequest)
        dhtml = dresponse.read()
        # 设置解码方式
        dhtml = dhtml.decode('utf-8')
        dsoup = bs4.BeautifulSoup(dhtml, 'html.parser')
        # 获取信息
        article = Article()
        article.url = url  # URL信息
        page = dsoup.find('div', {'class''data_list'})
        article.title=page.find('div', {'class''blog_title'}).get_text()
        infoStr = page.find('div', {'class''blog_info'}).get_text()  # 文章信息,例如  发布时间:『 2016-12-14 11:26 』  用户名:sdksdk0  阅读(938) 评论(3)

        infoStr=infoStr.rsplit('『'1)
        infoStr=infoStr[1].rsplit('』'1)
        article.date = infoStr[0]     # 时间
        article.author = infoStr[1].rsplit('\xa0\xa0'1)[0].rsplit('用户名:'1)[1]   #用户名
        article.content = page.find('div', {'class''blog_content'}).get_text()   # 获取文章
        article.zq_date = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())  #采集时间

        # 存储数据
        sql = "INSERT INTO news( url, title, author, date, content,zq_date ) "
        sql = sql + " VALUES ('%s', '%s', '%s', '%s', '%s','%s') "
        data = (article.url, article.title, article.author, article.date, article.content,article.zq_date)
        cursor.execute(sql % data)
        connect.commit()

    except Exception as e:
        print(e)
        continue
    else:
        print(article.title)
        count += 1
    finally:
        # 判断数据是否收集完成
        if count == maxcount:
           break

# 关闭数据库连接
cursor.close()
connect.close()

3、运行效果
我们可以在数据库中可以查看到我们采集到的数据。 select  * from  news;


总结:在这个爬虫爬取的过程中,遇到了一些坑,主要就是CloudBlog的页面不够规范,所以在使用BeautifulSoup读取这个网页的时候,有的节点会有很多重复数据的现象,其次,这个网站的链接地址是/blog/articles/\w+/\w+.html这样的规则的,而不是直接带的https://的这种,所以我上面还拼接了一个网址前缀。在采集时间和用户的时候,采用了rsplit进行切分处理,可以看到我上面做回来很多的切分操作的,当然,你也可以选择用正则来匹配获取数据。



目录
相关文章
|
10天前
|
数据采集 存储 XML
Python爬虫:深入探索1688关键词接口获取之道
在数字化经济中,数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台,其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术,合法合规地获取1688关键词接口,助力商家洞察市场趋势,优化营销策略。
|
8天前
|
数据采集 JSON 开发者
Python爬虫京东商品详情数据接口
京东商品详情数据接口(JD.item_get)提供商品标题、价格、品牌、规格、图片等详细信息,适用于电商数据分析、竞品分析等。开发者需先注册账号、创建应用并申请接口权限,使用时需遵循相关规则,注意数据更新频率和错误处理。示例代码展示了如何通过 Python 调用此接口并处理返回的 JSON 数据。
|
12天前
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href='example.com']` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
|
15天前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
13天前
|
数据采集 JavaScript 前端开发
Python爬虫能处理动态加载的内容吗?
Python爬虫可处理动态加载内容,主要方法包括:使用Selenium模拟浏览器行为;分析网络请求,直接请求API获取数据;利用Pyppeteer控制无头Chrome。这些方法各有优势,适用于不同场景。
|
1月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
89 6
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
209 4
|
4月前
|
数据采集 存储 搜索推荐
打造个性化网页爬虫:从零开始的Python教程
【8月更文挑战第31天】在数字信息的海洋中,网页爬虫是一艘能够自动搜集网络数据的神奇船只。本文将引导你启航,用Python语言建造属于你自己的网页爬虫。我们将一起探索如何从无到有,一步步构建一个能够抓取、解析并存储网页数据的基础爬虫。文章不仅分享代码,更带你理解背后的逻辑,让你能在遇到问题时自行找到解决方案。无论你是编程新手还是有一定基础的开发者,这篇文章都会为你打开一扇通往数据世界的新窗。
|
5月前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
【7月更文挑战第31天】在网络数据的海洋中,使用Python的`requests`库构建网络爬虫就像探索未知的航船。HTTP协议指导爬虫与服务器交流,收集信息。HTTP请求包括请求行、头和体,响应则含状态行、头和体。`requests`简化了发送各种HTTP请求的过程。
87 4
|
2月前
|
数据采集 存储 数据挖掘
深入探索 Python 爬虫:高级技术与实战应用
本文介绍了Python爬虫的高级技术,涵盖并发处理、反爬虫策略(如验证码识别与模拟登录)及数据存储与处理方法。通过asyncio库实现异步爬虫,提升效率;利用tesseract和requests库应对反爬措施;借助SQLAlchemy和pandas进行数据存储与分析。实战部分展示了如何爬取电商网站的商品信息及新闻网站的文章内容。提醒读者在实际应用中需遵守法律法规。
202 66