备案控制台

开发者社区开发与运维文章正文

页面采集

2021-09-11 162

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 爬虫系列文章

爬虫

requests模块

urllib模块：基于模拟浏览器上网的模块。网络请求模块。
requests：基于网络请求的模块
- 作用：模拟浏览器上网。
requests模块的编码流程：
- 指定url
发起请求
- 获取响应数据（爬取到的数据）
持久化存储

页面采集

import requests

#1.爬取搜狗首页的页面源码数据
url = 'https://www.sogou.com/'
response = requests.get(url=url)
page_text = response.text #text返回的是字符串形式的响应数据
with open('./sogou.html','w',encoding='utf-8') as fp:
    fp.write(page_text)

import requests

#2.简易的网页采集器
#涉及到的知识点：参数动态化，UA伪装，乱码的处理
word = input('enter a key word:')
url = 'https://www.sogou.com/web'
#参数动态化：将请求参数封装成字典作用到get方法的params参数中
params = {
    'query':word
}
response = requests.get(url=url,params=params)
page_text = response.text
fileName = word+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)
print(word,'下载成功！！！')

上述代码出现的问题：

乱码问题
爬取数据丢失

import requests

#乱码处理
word = input('enter a key word:')
url = 'https://www.sogou.com/web'
#参数动态化：将请求参数封装成字典作用到get方法的params参数中
params = {
    'query':word
}
response = requests.get(url=url,params=params)
#可以修改响应数据的编码
response.encoding = 'utf-8'#手动修改了响应对象的编码格式
page_text = response.text
fileName = word+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)
print(word,'下载成功！！！')

文章标签：

Python

数据采集

存储

丿阿茶skr丶

目录

相关文章

穿过生命散发芬芳

|

9月前

|

Prometheus 监控关系型数据库

监控数据的几种采集方式

【1月更文挑战第14天】

穿过生命散发芬芳

188 0 0

全栈程序猿

|

数据采集小程序前端开发

IoT小程序在展示中央空调采集数据和实时运行状态上的应用

IoT小程序框架在跨系统平台（AliOS Things、Ubuntu、Linux、MacOS、Window等）方面提供了非常优秀的基础能力，应用的更新升级提供了多种方式，在实际业务开发过程中可以灵活选择。IoT小程序框架通过JSAPI提供了调用系统底层应用的能力，同时提供了自定义JSAPI扩展封装的方法，这样就足够业务开发通过自定义的方式满足特殊的业务需求。 IoT小程序在前端框架能力、应用框架能力、图形框架能力都进行了适配和优化。那么接下来，我们按照其官方步骤搭建开发环境，然后结合中央空调数据采集和状态显示的实际应用场景开发物联网小程序应用。

全栈程序猿

23943 63 65

IoT小程序在展示中央空调采集数据和实时运行状态上的应用

奔跑的数据

|

数据采集安全 JavaScript

使用GoQuery实现头条新闻采集

在本文中，我们将介绍如何使用Go语言和GoQuery库实现一个简单的爬虫程序，用于抓取头条新闻的网页内容。我们还将使用爬虫代理服务，提高爬虫程序的性能和安全性。我们将使用多线程技术，提高采集效率。最后，我们将展示爬虫程序的运行结果和代码。

奔跑的数据

107 0 0

使用GoQuery实现头条新闻采集

左边的天堂

|

小程序

小程序接入实时日志

小程序接入实时日志

左边的天堂

294 0 0

雷石安全实验室

Zoomeye采集工具

Zoomeye采集工具

雷石安全实验室

116 0 0

云课程笔记

|

数据采集缓存 JavaScript

网站流量日志埋点收集- - 方案二--点击事件数据采集实现|学习笔记

快速学习网站流量日志埋点收集- -方案二--点击事件数据采集实现

云课程笔记

402 0 0

网站流量日志埋点收集- - 方案二--点击事件数据采集实现|学习笔记

游客jmbeijpy5tto4

|

数据采集搜索推荐 SEO

全网URL采集工具（msray），支持关键词采集，域名采集，联系人采集

全网URL采集工具，支持baidu，sogou，bing,Google,Yandex,Want,神马，DuckDuckGo，等搜索引擎，支持关键词采集，域名采集，URL采集，联系方式采集，手机号采集，qq采集，邮箱采集

游客jmbeijpy5tto4

853 0 0

全网URL采集工具（msray），支持关键词采集，域名采集，联系人采集

琦彦

|

JSON Prometheus 监控

Granafa监控仪表盘：自定义简约型-只显示资源总览，各个主机详情

Granafa监控仪表盘：自定义简约型-只显示资源总览，各个主机详情

琦彦

760 0 0

Granafa监控仪表盘：自定义简约型-只显示资源总览，各个主机详情

中间件小哥

|

监控前端开发 JavaScript

通过页面埋点做监控却不影响性能？解密ARMS前端监控数据上报技术内幕

本文将为您介绍，在采集多类日志数据的情况下，阿里云业务实时监控服务（ARMS）之前端监控如何优化日志上报

中间件小哥

6874 10 42

抱泽

|

SQL 弹性计算监控

日志服务（SLS）初体验：采集、加工、查询分析及可视化

日志服务（SLS）是阿里集团自研的一站式日志平台，它包含数据实时采集、数据加工、智能查询分析以及数据分发四大基础功能，用户无需开发就能能够开箱即用地使用它来提升运维、运营效率，建立 DT 时代海量日志处理能力。为了让大家对日志服务有更直观的感受，本文将带着大家体验一下这些基础功能，以最常见的 Linux Syslog 作为对象，看看如何简单快速地实现对它的采集、加工、查询分析以及可视化。

抱泽

1476 0 0

热门文章

最新文章

选择DDOS防御的几个关键因素

对象存储 OSS图片高级压缩的功能使用及示例

阿里云RPA（机器人流程自动化）干货系列之二：认识RPA（下）

表格存储最佳实践：一种用于存储时间序列数据的表结构设计

有监督学习和无监督学习两者的区别

九爷带你了解 Memcache工作原理总结

设计模式（十一）：享元模式

软件革命所带来的挑战与风险

Sonnedix收购意大利11.2MW光伏电站产品组合

一次SSIS Package的调试经历

【赵渝强老师】K8s中Pod探针的TCPSocketAction

深入剖析SVM核心机制：铰链损失函数的原理与代码实现

Nginx，正向代理

A Brief Introduction to DNS

SpringBoot缓存注解使用

vb6读取mysql,用odbc mysql 5.3版本驱动

对Spring、SpringMVC、MyBatis框架的介绍与解释

SpringCloudAlibaba-Seata2.0.0与Nacos2.2.1

ES6的export命令

Real Computer Network

相关电子书

更多

数据采集：日志数据上传

日志数据采集与分析对接

低代码开发师（初级）实战教程

相关实验场景

更多

基于Kibana Dashboard创建仪表板，可视化匹配航班信息

日志服务之告警接入与管理

下一篇

阿里云上1分钟搞定幻兽帕鲁联机服务器搭建