文档备案控制台

开发者社区大数据文章正文

python爬虫思路

2017-11-12 980

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

python2
爬虫：从网页上采取数据
爬虫模块：urllib,urllib2,re,bs4,requests,scrapy,xlml
1.urllib
2.request
3.bs4
4.正则re
5种数据类型
(1)数字Number
(2)字符串String
(3)列表List[] 中文在可迭代对象就是unicode对象
(4)元组Tuple()
(5)字典Set{}
爬虫思路：
1.静态 urlopen打开网页------获取源码read
2.requests(模块) get/post请求----获取源码 text()方法 content()方法(建议)
3.bs4 能够解析HTML和XML
#-- coding:utf-8 --
from bs4 import BeautifulSoup
#1
#html="<div>2018.1.8 14:03</div>"
#soup=BeautifulSoup(html,'html.parser') #解析网页
#print soup.div
#2从文件中读取
html=''
soup=BeautifulSoup(open('index.html'),'html.parser')
print soup.prettify()

4.获取所需信息

本文转自技术花妞妞 51CTO博客，原文链接:http://blog.51cto.com/xiaogongju/2061745

文章标签：

Python

数据采集

关键词：

Python爬虫

爬虫python

Python思路

科技小能手

目录

相关文章

小白学大数据

|

7月前

|

数据采集 Web App开发数据安全/隐私保护

实战：Python爬虫如何模拟登录与维持会话状态

实战：Python爬虫如何模拟登录与维持会话状态

小白学大数据

1117 1 2

小白学大数据

|

8月前

|

数据采集 Web App开发自然语言处理

新闻热点一目了然：Python爬虫数据可视化

新闻热点一目了然：Python爬虫数据可视化

小白学大数据

779 6 6

站大爷

|

9月前

|

数据采集数据挖掘测试技术

Go与Python爬虫实战对比：从开发效率到性能瓶颈的深度解析

本文对比了Python与Go在爬虫开发中的特点。Python凭借Scrapy等框架在开发效率和易用性上占优，适合快速开发与中小型项目；而Go凭借高并发和高性能优势，适用于大规模、长期运行的爬虫服务。文章通过代码示例和性能测试，分析了两者在并发能力、错误处理、部署维护等方面的差异，并探讨了未来融合发展的趋势。

站大爷

967 0 0

蒋星熠Jaxonic

|

7月前

|

数据采集监控数据库

Python异步编程实战：爬虫案例

🌟 蒋星熠Jaxonic，代码为舟的星际旅人。从回调地狱到async/await协程天堂，亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验，助你驾驭并发，在二进制星河中谱写极客诗篇。

蒋星熠Jaxonic

646 3 3

Python异步编程实战：爬虫案例

蓝易云

|

8月前

|

数据采集存储 XML

Python爬虫技术：从基础到实战的完整教程

最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.

蓝易云

1038 19 19

小白学大数据

|

7月前

|

数据采集存储 JSON

Python爬虫常见陷阱：Ajax动态生成内容的URL去重与数据拼接

Python爬虫常见陷阱：Ajax动态生成内容的URL去重与数据拼接

小白学大数据

221 1 1

小白学大数据

|

8月前

|

数据采集存储 Web App开发

处理Cookie和Session：让Python爬虫保持连贯的"身份"

处理Cookie和Session：让Python爬虫保持连贯的"身份"

小白学大数据

489 0 2

winx_19970108018

|

7月前

|

数据采集存储 JavaScript

解析Python爬虫中的Cookies和Session管理

Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储，用于标识用户；Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。

winx_19970108018

434 0 0

小白学大数据

|

9月前

|

数据采集存储 JSON

地区电影市场分析：用Python爬虫抓取猫眼/灯塔专业版各地区票房

地区电影市场分析：用Python爬虫抓取猫眼/灯塔专业版各地区票房

小白学大数据

870 2 2

小白学大数据

|

8月前

|

数据采集 Web App开发前端开发

处理动态Token：Python爬虫应对AJAX授权请求的策略

处理动态Token：Python爬虫应对AJAX授权请求的策略

小白学大数据

666 0 0

热门文章

最新文章

Python爬虫知识点梳理

Python网络爬虫反爬破解策略实战

Scrapy分布式、去重增量爬虫的开发与设计

[python爬虫] Selenium爬取新浪微博内容及用户信息

利用Python和Selenium实现定时任务爬虫

python爬虫翻页_python爬虫怎么实现翻页

知乎高颜值图片抓取到本地(Python3 爬虫.人脸检测.颜值检测)

Dynamic Website 爬虫：应对动态内容与 JavaScript 渲染挑战

Python写的Web spider（网络爬虫）

基于python大数据的台风灾害分析及预测系统

基于Python大数据的热门游戏推荐系统

基于python大数据的青少年网络使用情况分析及预测系统

2026版基于python大数据的电影分析可视化系统

基于Python大数据的的电商用户行为分析系统

基于python大数据技术的医疗数据分析与研究

基于python大数据深度学习的酒店评论文本情感分析系统

Python SQLAlchemy模块：从入门到实战的数据库操作指南

基于python大数据的的海洋气象数据可视化平台

基于Python大数据的主流汽车价格分析可视化系统

相关课程

更多

Python语言基础 - 函数、面向对象、异常处理

Python Web开发基础

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

推荐镜像

更多

python-release

下一篇

阿里云正式发布 Agentic 代码安全：AI驱动的双Agent协同引擎