几行代码实现爬虫

简介: 使用 Pycharm , 导入 一步 一部导入 request模块 ,几行代码实现爬虫,并对reques模块爬虫基本方法进行解释,方便以后复习

第一步 先导入 request模块  (使用的pycharm)

1.png

打开pycharm 光标定位在 file ,点击  选择 settings image.png

进入下面的 界面image.png选择project  下面的 Python interpreter  ,然后单击 添加符号

image.png

搜索request , 选择导入的request  ,点击 install 安装即可。


然后新建一个python 文件

image.png

import requests
url = "https://www.baidu.com/"  #要爬取的地址
r = requests.get(url)  # 获取 requests 响应
print(r.status_code)   # 看一下自己是否爬取成功  成功 的状态码 200
print(r.headers)   #返回很多headers 的信息
print(r.encoding)   # 返編碼方式
r.encoding = "utf-8"  #设置编码方式  看内容里面的 menta 里面的  charset 英文意思就是说 字符集
print(r.cookies)  # 查看网页cookies
print(r.text)  # 打印爬取到得内容

这个是代码。


第二对request 内的函数(方法)进行简单的认识

1 发送request请求

 

url :要下载的目标网页的URL

params(英文单词参数的意思): 字典形式, 设置URL后面的参数,

date: 字典或者字符串,一般用于POST方法提交数据

headers: 设置 user-agent, refer等请求头

timeout : 超时时间, 单位为秒。

Verify: True/False,是否进行HTTPS证书验证 默认是,需要自己设置证书地址(httphttps 的区别在于 前者没有后者安全 , 后者有密钥加持,更安全一些,安全的代价也就是响应慢)

Allow_redirects : True/False是否让requests 做重定向处理,默认是

Cooies:附带本地的cookies数据

 

 

2 接受 response响应   requests 网页下载库

r = requests.get/post(url)

//查看状态码,如果等于200代表请求成功

r.status_code   status 英语意思就是状态的意思   code英文就是代码的意思

//查看编码,以及变更编码

r. encoding ( request 会根据Heders 推出编码 推测不到则设置为  编码ISO-8859-1  如果乱码,需要自己去 看一下自己爬取网站的编码方式,做出修改)

//查看返回网页内容

r. text

//查看返回HTTPheaders   (这个就是 header 推测  可以获得编码方式)

r.headers

//查看实际访问的URL

r.url

//以字节的方式返回 内容, 比如用于下载图片

r. content (content 英文意思就是内容的意思)

//服务器端要写入本地的cookies数据

r.cookies

第三对代码进行讲解(四行代码及爬取成功)


image.png

第一行为基本导入库

image.png

第二行url得意思是:在网页中相当于唯一表示符,和人得身份证差不多。后面得地址就是要爬取得网页(也就是唯一得网址)

image.png

第三行 获得服务器给返回的响应,也就是网页内容,并解析。

image.png

打印爬取得内容


第四对爬取到的内容进行解释


image.png


200 及 爬取成功


image.png


编码方式,文本格式,内容类型等等信息。

image.png

1 打印默认编码方式 , 2 显示默认编码  3 设置编码方式为utf-8不然会乱码


image.png


查看cookies


image.png


这个为查看爬到的内容, 及百度一下,后续还需用正则表达式,各种方法对数据进行清洗

相关文章
|
5月前
|
数据采集 JavaScript 前端开发
Python 爬虫实战:抓取和解析网页数据
【8月更文挑战第31天】本文将引导你通过Python编写一个简单的网络爬虫,从网页中抓取并解析数据。我们将使用requests库获取网页内容,然后利用BeautifulSoup进行解析。通过本教程,你不仅能够学习到如何自动化地从网站收集信息,还能理解数据处理的基本概念。无论你是编程新手还是希望扩展你的技术工具箱,这篇文章都将为你提供有价值的见解。
|
8月前
|
数据采集 存储 JSON
如何使用Python实现网站的爬虫功能?
使用Python进行网站爬虫涉及选择Scrapy、BeautifulSoup等框架,理解目标网站结构,发送HTTP请求(requests库),解析HTML(BeautifulSoup),提取并处理数据,同时处理异常如验证码和IP限制。遵守法律、道德规范和网站规则,尊重“robots.txt”指示,确保爬虫行为合法且不给网站带来负担。实际项目可能需考虑分布式、数据去重等复杂技术。
75 4
|
移动开发 算法 Java
50行代码实现网站服务器 2
50行代码实现网站服务器 2
88 0
50行代码实现网站服务器3
50行代码实现网站服务器3
80 0
|
数据采集 Python
|
数据采集 存储 分布式计算
爬虫识别-爬虫判断思路| 学习笔记
快速学习爬虫识别-爬虫判断思路
爬虫识别-爬虫判断思路| 学习笔记
|
数据采集 NoSQL 大数据
爬虫识别-爬虫识别代码实现顺序介绍|学习笔记
快速学习爬虫识别-爬虫识别代码实现顺序介绍
爬虫识别-爬虫识别代码实现顺序介绍|学习笔记
|
数据采集 JavaScript Python
《Python第五讲——关于爬虫如何做js逆向的思路》电子版地址
《Python第五讲——关于爬虫如何做js逆向的思路》电子版地址
154 0
《Python第五讲——关于爬虫如何做js逆向的思路》电子版地址
|
数据采集 编译器 开发者
爬虫学习:XPath的使用
熟知XPath的使用来进行HTML信息锁定并获取
260 0
爬虫学习:XPath的使用
|
数据采集 XML JSON
图解爬虫,用几个最简单的例子带你入门Python爬虫
爬虫一直是Python的一大应用场景,差不多每门语言都可以写爬虫,但是程序员们却独爱Python。之所以偏爱Python就是因为她简洁的语法,我们使用Python可以很简单的写出一个爬虫程序。本篇博客将以Python语言,用几个非常简单的例子带大家入门Python爬虫。
261 0

相关课程

更多