详解python爬取今日头条街拍美图

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 之前已经爬过今日头条街拍的美图,今天再次完善一下代码,并详解爬取过程及遇到的坑。废话不多说,抓紧上车啦。分析页面分析索引页我们打开今日头条官网,在在搜索框输入「街拍」首页内容然后点击确定,跳转到街拍的详情页。

之前已经爬过今日头条街拍的美图,今天再次完善一下代码,并详解爬取过程及遇到的坑。废话不多说,抓紧上车啦。

分析页面

分析索引页

我们打开今日头条官网,在在搜索框输入「街拍」


img_04d2610b44f4318af3df2f00535c7cba.png
首页内容

然后点击确定,跳转到街拍的详情页。


img_d01e61207b6c4f5c6066fdf420bec782.png
街拍

这里可以看到上方有四个框,分别是 综合、视频、图集、用户。

两种方式

看到这里,就有两种不同的抓取方式。

  • 抓取综合下方的图集,这个方式虽然可以抓取到图片,但是抓到的图片只有四张或一张,也就是看到的显示在标题下方的图片。而且获取的图片还不是高清的,还要替换每张图片的地址格式。
  • 抓取图集下的图片,这种方式可以抓到所有一个标题下的图片,但是一页显示的图片抓取不到。
    我看网上大多是第一种方式,这次为了练习,我们选取第二种方式。
    我们点击图集,打开开发者工具「按F12」,不断下拉页面,页面地址没有变化,内容不断加载出来,这一看就是 Ajax 加载的页面。


    img_eaa8358ef2580636dc54e3cfd90b7a37.png
    详情

    这里面也有一些坑

  • 如果你点击图集,打开开发者工具,刷新一下,你会发现,你的页面在综合这一栏。
  • 你会发现你找到的上图的参数跟我的不一样。
    这里你可以刷新之后点击图集,然后向下拖动几个,让页面多加载一些。
    其中「cur_tab:3」这个参数中的数字对应图集,这下你明白了吧。
    到这里就好办了,我们点击 Preview


    img_c94aa1dc56dcf7d11a407c2ceac608f2.png

    可以看到 data 下方有 article_url 当然还有 image_url ,你点击 image_url 你会发现只有四个 url ,复制链接在浏览器上打开你发现 TMD 还不是大图,还是缩略图,所以我们不用它,我们获取 article_url ,获取之后再次请求不就完了吗。虽说麻烦,但是我们思路清晰,头脑发热,四肢简单。哎不对,跑题了。

分析详情页

这里我们来看看详情页的内容

img_a590b6be0a75834c6053495b04127aec.png
详情页分析

这里我们随便点开一个组图的 url 来分析,我们可以看到返回的数据是一大堆 html ,这里有必要说一下, 我们在获取页面内容的时候,一般浏览器会返回给我们的是 response 里的内容。但是我们大多数爬取数据,用 xpath 、BeautifulSoup 获取数据,看的是 Elements 里的内容。这里一定要看看 response 里的内容和 Element 里的是否相同。
这里的图片地址还真是不好找,具体怎么找呢,点开图片的地址,复制下链接,在HTML里「Ctrl + F」就发现了。是在红色框里面的。

上代码

分析完了就开始上代码爬取
看看需要引入那些库

import requests
import re,json,os
from urllib.parse import urlencode
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
#引入模块config中所有变量
from config import *
import pymongo
from hashlib import md5
from multiprocessing import Pool

这里引用的库有点多,所有本文的干货也是满满滴。

获取索引页数据

def get_page_index(offset,keyword):
    # 获取页面的HTML
    data = {
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': '20',
        'cur_tab': 3,
        'from':'gallery'
    }
    try:
        url = 'https://www.toutiao.com/search_content/?' + urlencode(data)
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('请求失败')
        return None

获取索引页的内容,这里的「offset」是页面的规律、「keyword」是关键字,我们这篇文章是街拍。通过构造参数,拼接 url 。返回页面的 text。

解析索引页

def parse_page_index(html):
    # 获取所有详情页的url
    data = json.loads(html)  #页面是json格式的,装换成字符串格式
    # data.keys()返回所有键名
    if data and 'data' in data.keys():
        for item in data.get('data'):
            yield item.get('article_url')

这个函数的主要作用就是提取所有的 article_url 。代码里面已经详细的说明了内容。

解析详情页的url

def get_page_detial(url):
    #请求详情页的url
    try:
        headers = {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '
            '(KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13039.400'}
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('请求详情页失败')
        return None

这里不加 headers 是获取不到数据的。

解析详情页

def parse_page_detial(html):
    #获取详情页的标题和图片地址url
    soup = BeautifulSoup(html, 'lxml')
    title = soup.select('title')[0].get_text()

    #利用正则提取图片地址
    pattern = re.compile('.*?gallery: JSON.parse\("(.*?)\"\)', re.S)
    result = re.search(pattern,html)
    if result:
        data = json.loads(result.group(1).replace('\\', ''))
        if data and 'sub_images' in data.keys():
            sub_images = data.get('sub_images')
            #提取图片
            images = [item.get('url') for item in sub_images]
            #保存图片到本地
            for image in images:download_image(image)
            return {'title':title,
                    'image':images}

这里面有些东西要说一下了。
首先,这里获取的页面内容是 json 格式的,我们看一下这里的内容


img_b90f5c68a937bfacc29e58860f25f150.png
详情页json

这里获取用BeautifulSoup 获取 title 很方便,直接去第一个 title 就好了,关键就在这个image的提取。


img_f555dbf8685a43b5de24157210851865.png
image.png

这里是在红色框里的,这里涉及到了正则的用法,代码里用到了反斜杠,这里是转义匹配,要不然正则会匹配不到想要的数据。
还有在源代码中出现了好多反斜杠,不去除掉还是没办法匹配。
这些坑跨过之后就一帆风顺了。

保存到MongoDB

'''配置文件'''

#链接地址
MONGO_URL = 'localhost'

#数据库名称
MONGO_DB = 'jiepai'

#表名称
MONGO_TABLE = 'jiepai'

KEY_WORD = '街拍'

这是一些配置文件,注意,这里的配置文件是在另一个python文件中写的,所以说开头引入的库中有一个注释。

#引入模块config中所有变量
from config import *
import pymongo

#声明MongoDB对象
client = pymongo.MongoClient(MONGO_URL)
db = client[MONGO_DB]

def save_to_mongo(result):
    if db[MONGO_TABLE].insert(result):
        print('存储到MongoDB成功')

这里插入到MongoDB。

保存到本地

def save_image(result):
    file_path = '{0}/{1}{2}'.format(os.getcwd(),md5(result).hexdigest(),'jpg')
    if not os.path.exists(file_path):
        with open(file_path,'wb') as f:
            f.write(result)

这里用了 hashlib 库的 md5 这个方法,目的是为了防止图片的重复,这个方法会根据图片的内容生成唯一的字符串,用来去重最好不过了。
这里说保存图片,没有下载图片,怎么保存,所以还要先下载图片。

def download_image(url):
    try:
        print('正在下载',url)
        r = requests.get(url)
        if r.status_code == 200:
            save_image(r.content)
        return False
    except RequestException:
        print('请求图片出错')
        return False

细心的伙伴们已经发现,我们在解析详情页的时候插入的这个下载图片的函数。

开启多线程抓取

def main(offset):
    # 调用函数
    html = get_page_index(offset,KEY_WORD)
    for url in parse_page_index(html):
        html = get_page_detial(url)
        if html:
            result = parse_page_detial(html)
            save_to_mongo(result)

if __name__ == '__main__':
    pool = Pool()
    group = [x * 20 for x in range(1,21)]
    pool.map(main,group)
    pool.close()
    main()

这里声明一个线程池,调用 map 方法开启线程就可以了。

总结

到这里整个抓取过程就结束了。总体下来代码量要比平时抓取的要大,知识点也有很多。在这个过程中,即使找着代码敲也会发现不少的问题。抓取的过程就是不断调试的过程。
点个赞再走呗。

相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。   相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
目录
相关文章
|
3月前
|
数据采集 算法 数据可视化
【优秀python算法设计】基于Python网络爬虫的今日头条新闻数据分析与热度预测模型构建的设计与实现
本文设计并实现了一个基于Python网络爬虫和机器学习模型的今日头条新闻数据分析与热度预测系统,通过数据采集、特征工程、模型构建和可视化展示,挖掘用户行为信息和内容特征,预测新闻热度,为内容推荐和舆情监控提供决策支持。
120 0
【优秀python算法设计】基于Python网络爬虫的今日头条新闻数据分析与热度预测模型构建的设计与实现
|
4月前
|
数据采集 Web App开发 存储
Python-数据爬取(爬虫)
【7月更文挑战第24天】
80 7
|
4月前
|
数据采集 机器学习/深度学习 算法
Python-数据爬取(爬虫)
【7月更文挑战第23天】
60 5
|
4月前
|
数据采集 存储 Web App开发
Python-数据爬取(爬虫)
【7月更文挑战第15天】
176 3
|
5月前
|
Web App开发 Python Windows
经验大分享:PYTHON爬取66影视的电影下载链接,有搜索功能
经验大分享:PYTHON爬取66影视的电影下载链接,有搜索功能
111 2
|
5月前
|
存储 XML 数据处理
Python网络实践:去哪儿旅游数据爬取指南
Python网络实践:去哪儿旅游数据爬取指南
140 1
|
5月前
|
数据采集 JSON 算法
使用Python爬取华为市场APP应用进行分析
这个网站也是作者最近接触到的一个APP应用市场类网站。讲实话,还是蛮适合新手朋友去动手学习的。毕竟爬虫领域要想进步,还是需要多实战、多分析!该网站中的一些小细节也是能够锻炼分析能力的,也有反爬虫处理。甚至是下载APP的话在Web端是无法拿到APK下载的直链,需要去APP端接口数据获取
|
5月前
|
Python 数据采集 安全
淘宝商品评论数据爬取:Python实战指南
淘宝商品评论数据的自动爬取可以为市场分析和用户行为研究提供宝贵的信息资源。然而,这一过程需要严格遵守法律法规,尊重数据的版权和隐私。通过合理利用Python的网络爬虫技术,可以在遵循道德规范的前提下,高效地完成数据采集任务。 通过本文的指南,希望你能对淘宝商品评论数据的爬取有一个清晰的认识,并能够安全、合法地进行数据采集。
|
5月前
|
程序员 Python
老程序员分享:python爬取电影网站信息并写入文件
老程序员分享:python爬取电影网站信息并写入文件
51 0
|
5月前
|
XML 数据采集 存储
经验大分享:python爬取喜马拉雅节目生成RSSFeed
经验大分享:python爬取喜马拉雅节目生成RSSFeed
75 0