页面采集

简介: 爬虫系列文章

爬虫

requests模块

  • urllib模块:基于模拟浏览器上网的模块。网络请求模块。
  • requests:基于网络请求的模块

    • 作用:模拟浏览器上网。
  • requests模块的编码流程:

    • 指定url
  • 发起请求

    • 获取响应数据(爬取到的数据)
  • 持久化存储

页面采集

import requests

#1.爬取搜狗首页的页面源码数据
url = 'https://www.sogou.com/'
response = requests.get(url=url)
page_text = response.text #text返回的是字符串形式的响应数据
with open('./sogou.html','w',encoding='utf-8') as fp:
    fp.write(page_text)
import requests

#2.简易的网页采集器
#涉及到的知识点:参数动态化,UA伪装,乱码的处理
word = input('enter a key word:')
url = 'https://www.sogou.com/web'
#参数动态化:将请求参数封装成字典作用到get方法的params参数中
params = {
    'query':word
}
response = requests.get(url=url,params=params)
page_text = response.text
fileName = word+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)
print(word,'下载成功!!!')

上述代码出现的问题:

  • 乱码问题
  • 爬取数据丢失
import requests

#乱码处理
word = input('enter a key word:')
url = 'https://www.sogou.com/web'
#参数动态化:将请求参数封装成字典作用到get方法的params参数中
params = {
    'query':word
}
response = requests.get(url=url,params=params)
#可以修改响应数据的编码
response.encoding = 'utf-8'#手动修改了响应对象的编码格式
page_text = response.text
fileName = word+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)
print(word,'下载成功!!!')
相关文章
|
9月前
|
Prometheus 监控 关系型数据库
监控数据的几种采集方式
【1月更文挑战第14天】
|
数据采集 小程序 前端开发
IoT小程序在展示中央空调采集数据和实时运行状态上的应用
IoT小程序框架在跨系统平台(AliOS Things、Ubuntu、Linux、MacOS、Window等)方面提供了非常优秀的基础能力,应用的更新升级提供了多种方式,在实际业务开发过程中可以灵活选择。IoT小程序框架通过JSAPI提供了调用系统底层应用的能力,同时提供了自定义JSAPI扩展封装的方法,这样就足够业务开发通过自定义的方式满足特殊的业务需求。 IoT小程序在前端框架能力、应用框架能力、图形框架能力都进行了适配和优化。那么接下来,我们按照其官方步骤搭建开发环境,然后结合中央空调数据采集和状态显示的实际应用场景开发物联网小程序应用。
23943 63
IoT小程序在展示中央空调采集数据和实时运行状态上的应用
|
数据采集 安全 JavaScript
使用GoQuery实现头条新闻采集
在本文中,我们将介绍如何使用Go语言和GoQuery库实现一个简单的爬虫程序,用于抓取头条新闻的网页内容。我们还将使用爬虫代理服务,提高爬虫程序的性能和安全性。我们将使用多线程技术,提高采集效率。最后,我们将展示爬虫程序的运行结果和代码。
107 0
使用GoQuery实现头条新闻采集
|
小程序
小程序接入实时日志
小程序接入实时日志
294 0
|
数据采集 缓存 JavaScript
网站流量日志埋点收集- - 方案二--点击事件数据采集实现|学习笔记
快速学习网站流量日志埋点收集- -方案二--点击事件数据采集实现
402 0
网站流量日志埋点收集- - 方案二--点击事件数据采集实现|学习笔记
|
数据采集 搜索推荐 SEO
全网URL采集工具(msray),支持关键词采集,域名采集,联系人采集
全网URL采集工具,支持baidu,sogou,bing,Google,Yandex,Want,神马,DuckDuckGo,等搜索引擎,支持关键词采集,域名采集,URL采集,联系方式采集,手机号采集,qq采集,邮箱采集
全网URL采集工具(msray),支持关键词采集,域名采集,联系人采集
|
JSON Prometheus 监控
Granafa监控仪表盘:自定义简约型-只显示资源总览,各个主机详情
Granafa监控仪表盘:自定义简约型-只显示资源总览,各个主机详情
760 0
Granafa监控仪表盘:自定义简约型-只显示资源总览,各个主机详情
|
监控 前端开发 JavaScript
通过页面埋点做监控却不影响性能?解密ARMS前端监控数据上报技术内幕
本文将为您介绍,在采集多类日志数据的情况下,阿里云业务实时监控服务(ARMS)之前端监控如何优化日志上报
6874 10
|
SQL 弹性计算 监控
日志服务(SLS)初体验:采集、加工、查询分析及可视化
日志服务(SLS)是阿里集团自研的一站式日志平台,它包含数据实时采集、数据加工、智能查询分析以及数据分发四大基础功能,用户无需开发就能能够开箱即用地使用它来提升运维、运营效率,建立 DT 时代海量日志处理能力。 为了让大家对日志服务有更直观的感受,本文将带着大家体验一下这些基础功能,以最常见的 Linux Syslog 作为对象,看看如何简单快速地实现对它的采集、加工、查询分析以及可视化。
1476 0