python爬虫访问百度贴吧案例

简介: python爬虫访问百度贴吧案例
  • 需求:
    1.爬取贴吧名称 ,以海贼王为例
    2.要进行翻页爬取(起始页,中止页)
    3.把每一页的内容保存到本地

页面分析

分析url 翻页爬取的时候:大多数情况下是需要分析url的规律

找出海贼王贴吧前三页的url如下:
https://tieba.baidu.com/f?ie=utf-8&kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&fr=search(第一页)
https://tieba.baidu.com/f?kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&ie=utf-8&pn=50(第二页)
https://tieba.baidu.com/f?kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&ie=utf-8&pn=100(第三页)

经验证,第一页的也可以写作:
https://tieba.baidu.com/f?kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&ie=utf-8&pn=0(第一页)

使用input(),从控制台输入想要查找的内容

代码一般写法

import urllib.request
import urllib.parse

name = input("请输入贴吧名称")
headers = {
    
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
}

# 起始页
begin = int(input("请输入开始页"))
# 结束页
end = int(input("请输入结束页"))
kw = {
    'kw': name}
result = urllib.parse.urlencode(kw)

# 拼接url
for i in range(begin, end+1):  # 整数序列,range范围是左闭右开
    pn = (i-1)*50
    # print(pn)
    base_url = 'https://tieba.baidu.com/f?'
    url = base_url + result + '&pn=' + str(pn)
    # 发请求
    req = urllib.request.Request(url, headers=headers)
    res = urllib.request.urlopen(req)  # 发起请求,获得响应
    # print(res.getcode())  # 得到响应码,200表示请求成功
    html = res.read().decode('utf-8')
    # print(html)

    # 写入文件
    filename = '第'+str(i) + '页.html'
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(html)
        print(f'正在爬取第{
      i}页')  

函数写法

import urllib.request
import urllib.parse


# 分析功能:读取页面,写入文件,主函数
def readPage(url):
    headers = {
    
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
    }
    # 发请求
    req = urllib.request.Request(url, headers=headers)
    res = urllib.request.urlopen(req)  # 发起请求,获得响应
    # print(res.getcode())  # 得到响应码,200表示请求成功
    html = res.read().decode('utf-8')
    return html


def writePage(filename, html):
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(html)


def main():
    name = input("请输入贴吧名称")
    # 起始页
    begin = int(input("请输入开始页"))
    end = int(input("请输入结束页"))
    # 中文网址有问题,需要对name进行处理
    kw = {
    'kw': name}
    result = urllib.parse.urlencode(kw)
    # 拼接url
    for i in range(begin, end + 1):  # 整数序列,range范围是左闭右开
        pn = (i - 1) * 50
        # print(pn)
        base_url = 'https://tieba.baidu.com/f?'
        url = base_url + result + '&pn=' + str(pn)
        # 调用函数
        html = readPage(url)
        filename = '第'+str(i) + '页.html'
        writePage(filename, html)


if __name__ == '__main__':  # 程序主入口
    main()

面向对象写法

import urllib.request
import urllib.parse


class BaiduSpider(object):
    def __init__(self):
        self.headers = {
    
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
        }
        self.base_url = 'https://tieba.baidu.com/f?'

    def readPage(self, url):
        # 发请求
        req = urllib.request.Request(url, headers=self.headers)
        res = urllib.request.urlopen(req)  # 发起请求,获得响应
        # print(res.getcode())  # 得到响应码,200表示请求成功
        html = res.read().decode('utf-8')
        return html

    def writePage(self, filename, html):
        with open(filename, 'w', encoding='utf-8') as f:
            f.write(html)

    def main(self):
        name = input("请输入贴吧名称")
        # 起始页
        begin = int(input("请输入开始页"))
        end = int(input("请输入结束页"))
        # 中文网址有问题,需要对name进行处理
        kw = {
    'kw': name}
        result = urllib.parse.urlencode(kw)
        # 拼接url
        for i in range(begin, end + 1):  # 整数序列,range范围是左闭右开
            pn = (i - 1) * 50
            # print(pn)
            url = self.base_url + result + '&pn=' + str(pn)
            # 调用函数
            html = self.readPage(url)
            filename = '第' + str(i) + '页.html'
            self.writePage(filename, html)


if __name__ == '__main__':
    spider = BaiduSpider()  # 创建实例对象
    spider.main()
目录
相关文章
|
11天前
|
数据处理 数据库 Python
我在日常办公中使用python的案例分享
我在日常办公中使用python的案例分享
25 4
|
11天前
|
数据采集 机器学习/深度学习 数据可视化
python在传媒行业的案例分享
python在传媒行业的案例分享
22 2
|
1天前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
在网络数据的海洋中,网络爬虫遵循HTTP协议,穿梭于互联网各处,收集宝贵信息。本文将从零开始,使用Python的requests库,深入解析HTTP协议,助你构建自己的网络爬虫帝国。首先介绍HTTP协议基础,包括请求与响应结构;然后详细介绍requests库的安装与使用,演示如何发送GET和POST请求并处理响应;最后概述爬虫构建流程及挑战,帮助你逐步掌握核心技术,畅游数据海洋。
15 3
|
1天前
|
数据采集 API 开发者
🚀告别网络爬虫小白!urllib与requests联手,Python网络请求实战全攻略
在网络的广阔世界里,Python凭借其简洁的语法和强大的库支持,成为开发网络爬虫的首选语言。本文将通过实战案例,带你探索urllib和requests两大神器的魅力。urllib作为Python内置库,虽API稍显繁琐,但有助于理解HTTP请求本质;requests则简化了请求流程,使开发者更专注于业务逻辑。从基本的网页内容抓取到处理Cookies与Session,我们将逐一剖析,助你从爬虫新手成长为高手。
12 1
|
9天前
|
存储 算法 安全
Python案例分享:如何实现信息的加解密
Python案例分享:如何实现信息的加解密
20 10
|
9天前
|
Java 数据安全/隐私保护 Python
Python案例分享:如何实现文件的解压缩
Python案例分享:如何实现文件的解压缩
35 8
|
9天前
|
存储 缓存 安全
Python案例分享:如何实现文件的上传下载
Python案例分享:如何实现文件的上传下载
45 6
|
10天前
|
数据采集 JavaScript 前端开发
构建你的首个Python网络爬虫
【9月更文挑战第8天】本文将引导你从零开始,一步步构建属于自己的Python网络爬虫。我们将通过实际的代码示例和详细的步骤解释,让你理解网络爬虫的工作原理,并学会如何使用Python编写简单的网络爬虫。无论你是编程新手还是有一定基础的开发者,这篇文章都将为你打开网络数据获取的新世界。
|
10天前
|
数据采集 机器学习/深度学习 搜索推荐
Python爬虫技术基础与应用场景详解
本文介绍了爬虫技术的基本概念、原理及应用场景,包括数据收集、价格监测、竞品分析和搜索引擎优化等。通过一个实战案例展示了如何使用Python爬取电商网站的商品信息。强调了在使用爬虫技术时需遵守法律法规和道德规范,确保数据抓取的合法性和合规性。
|
13天前
|
数据采集 JavaScript 前端开发
打造你的Python爬虫:从基础到进阶
【9月更文挑战第5天】在数字信息泛滥的时代,掌握一项技能能让我们更好地筛选和利用这些资源。本文将带你了解如何用Python构建一个基本的网页爬虫,进而拓展到更复杂的数据抓取任务。无论你是编程新手还是有一定经验的开发者,跟随这篇文章的步伐,你将能够实现自动化获取网络数据的目标。准备好了吗?让我们一起潜入代码的世界,解锁新的可能!