页面采集

简介: 爬虫系列文章

爬虫

requests模块

  • urllib模块:基于模拟浏览器上网的模块。网络请求模块。
  • requests:基于网络请求的模块

    • 作用:模拟浏览器上网。
  • requests模块的编码流程:

    • 指定url
  • 发起请求

    • 获取响应数据(爬取到的数据)
  • 持久化存储

页面采集

import requests

#1.爬取搜狗首页的页面源码数据
url = 'https://www.sogou.com/'
response = requests.get(url=url)
page_text = response.text #text返回的是字符串形式的响应数据
with open('./sogou.html','w',encoding='utf-8') as fp:
    fp.write(page_text)
import requests

#2.简易的网页采集器
#涉及到的知识点:参数动态化,UA伪装,乱码的处理
word = input('enter a key word:')
url = 'https://www.sogou.com/web'
#参数动态化:将请求参数封装成字典作用到get方法的params参数中
params = {
    'query':word
}
response = requests.get(url=url,params=params)
page_text = response.text
fileName = word+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)
print(word,'下载成功!!!')

上述代码出现的问题:

  • 乱码问题
  • 爬取数据丢失
import requests

#乱码处理
word = input('enter a key word:')
url = 'https://www.sogou.com/web'
#参数动态化:将请求参数封装成字典作用到get方法的params参数中
params = {
    'query':word
}
response = requests.get(url=url,params=params)
#可以修改响应数据的编码
response.encoding = 'utf-8'#手动修改了响应对象的编码格式
page_text = response.text
fileName = word+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)
print(word,'下载成功!!!')
相关文章
|
6月前
|
Prometheus 监控 关系型数据库
监控数据的几种采集方式
【1月更文挑战第14天】
|
数据采集 安全 JavaScript
使用GoQuery实现头条新闻采集
在本文中,我们将介绍如何使用Go语言和GoQuery库实现一个简单的爬虫程序,用于抓取头条新闻的网页内容。我们还将使用爬虫代理服务,提高爬虫程序的性能和安全性。我们将使用多线程技术,提高采集效率。最后,我们将展示爬虫程序的运行结果和代码。
使用GoQuery实现头条新闻采集
|
存储 数据采集 搜索推荐
全网搜索引擎采集(msray)|URL采集|关键词采集|域名采集
msray-plus支持搜索引擎结果采集、域名采集、URL采集、网址采集、全网域名采集、CMS采集、联系信息采集
全网搜索引擎采集(msray)|URL采集|关键词采集|域名采集
|
数据采集 缓存 JavaScript
网站流量日志埋点收集- - 方案二--点击事件数据采集实现|学习笔记
快速学习网站流量日志埋点收集- -方案二--点击事件数据采集实现
386 0
网站流量日志埋点收集- - 方案二--点击事件数据采集实现|学习笔记
|
数据采集 搜索推荐 SEO
全网URL采集工具(msray),支持关键词采集,域名采集,联系人采集
全网URL采集工具,支持baidu,sogou,bing,Google,Yandex,Want,神马,DuckDuckGo,等搜索引擎,支持关键词采集,域名采集,URL采集,联系方式采集,手机号采集,qq采集,邮箱采集
全网URL采集工具(msray),支持关键词采集,域名采集,联系人采集
|
定位技术 开发工具 Android开发
百度地图开发-显示实时位置信息 04
百度地图开发-显示实时位置信息 04
210 0
百度地图开发-显示实时位置信息 04
|
小程序 数据库
小程序评论怎么实时显示数据
小程序评论怎么实时显示数据
344 0
小程序评论怎么实时显示数据
|
数据可视化 物联网
轻松可视化实现设备监控大屏效果
前期团队一直在搭建与云端服务器对接的事情,近期终于落地,数据采集中心实现了服务端与可视化编辑器的融合,整个案例中脚本就两百行左右,基本通过可视化平台配置完成,体现我们平台的高效性。今天通过本案例讲解下服务端接口搭建、服务端与可视化编辑器是如何配合使用的。
3656 0
|
监控 JavaScript 前端开发