备案控制台

开发者社区开发与运维文章正文

python访问抓取网页常用命令（保存图片到本地、模拟POST、GET、中文编码问题）

2017-10-09 1002

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

简单的抓取网页:

import urllib.request   

url="http://google.cn/"  

response=urllib.request.urlopen(url)    #返回文件对象
page=response.read()

直接将URL保存为本地文件：

import urllib.request  

url="http://www.xxxx.com/1.jpg"

urllib.request.urlretrieve(url,r"d:\temp\1.jpg")

POST方式：

复制代码

import urllib.parse  
import urllib.request  


url="http://liuxin-blog.appspot.com/messageboard/add" 


values={"content":"命令行发出网页请求测试"}  

data=urllib.parse.urlencode(values) 

#创建请求对象  
req=urllib.request.Request(url,data) 
#获得服务器返回的数据  
response=urllib.request.urlopen(req) 
#处理数据  
page=response.read()

复制代码

GET方式：

复制代码

import urllib.parse  
import urllib.request  


url="http://www.google.cn/webhp" 


values={"rls":"ig"}  

data=urllib.parse.urlencode(values)  


theurl=url+"?"+data 
#创建请求对象  
req=urllib.request.Request(theurl) 
#获得服务器返回的数据  
response=urllib.request.urlopen(req) 
#处理数据  
page=response.read()

复制代码

有2个常用的方法,geturl(),info()

geturl()的设置是为了辨别是否有服务器端的网址重定向,而info()则包含了一系列的信息。

中文问题的处理，会用到 encode()编码 dencode()解码：

本文转自黄聪博客园博客，原文链接：http://www.cnblogs.com/huangcong/archive/2011/09/03/2165565.html，如需转载请自行联系原作者

文章标签：

Python

关键词：

Python命令

Python访问

Python网页

Python抓取

Python编码

老朱教授

目录

相关文章

shliang0603

|

21天前

|

计算机视觉 Windows Python

windows下使用python + opencv读取含有中文路径的图片和把图片数据保存到含有中文的路径下

在Windows系统中，直接使用`cv2.imread()`和`cv2.imwrite()`处理含中文路径的图像文件时会遇到问题。读取时会返回空数据，保存时则无法正确保存至目标目录。为解决这些问题，可以使用`cv2.imdecode()`结合`np.fromfile()`来读取图像，并使用`cv2.imencode()`结合`tofile()`方法来保存图像至含中文的路径。这种方法有效避免了路径编码问题，确保图像处理流程顺畅进行。

shliang0603

116 1 1

子午s

|

11天前

|

前端开发搜索推荐算法

中草药管理与推荐系统Python+Django网页界面+推荐算法+计算机课设系统+网站开发

中草药管理与推荐系统。本系统使用Python作为主要开发语言，前端使用HTML，CSS，BootStrap等技术和框架搭建前端界面，后端使用Django框架处理应用请求，使用Ajax等技术实现前后端的数据通信。实现了一个综合性的中草药管理与推荐平台。具体功能如下： - 系统分为普通用户和管理员两个角色 - 普通用户可以登录，注册、查看物品信息、收藏物品、发布评论、编辑个人信息、柱状图饼状图可视化物品信息、并依据用户注册时选择的标签进行推荐和根据用户对物品的评分使用协同过滤推荐算法进行推荐 - 管理员可以在后台对用户和物品信息进行管理编辑

子午s

46 12 12

中草药管理与推荐系统Python+Django网页界面+推荐算法+计算机课设系统+网站开发

请看我回答~

|

18天前

|

数据采集 JavaScript 前端开发

构建简易Python爬虫：抓取网页数据入门指南

【8月更文挑战第31天】在数字信息的时代，数据抓取成为获取网络资源的重要手段。本文将引导你通过Python编写一个简单的网页爬虫，从零基础到实现数据抓取的全过程。我们将一起探索如何利用Python的requests库进行网络请求，使用BeautifulSoup库解析HTML文档，并最终提取出有价值的数据。无论你是编程新手还是有一定基础的开发者，这篇文章都将为你打开数据抓取的大门。

请看我回答~

32 1 1

shliang0603

|

21天前

|

存储编解码 API

python多种方法压缩图片，opencv、PIL、tinypng、pngquant压缩图片

python多种方法压缩图片，opencv、PIL、tinypng、pngquant压缩图片

shliang0603

18 1 1

请看我回答~

|

19天前

|

数据采集 JavaScript 前端开发

构建你的第一个Python爬虫：抓取网页数据入门指南

【8月更文挑战第31天】在数字时代，数据是新的石油。本文将引导初学者通过简单的步骤，使用Python编程语言创建一个基础的网络爬虫程序。我们将探索如何从网络上提取信息，并理解背后的原理。无论你是编程新手还是想要扩展你的技术工具箱，这篇文章都将为你提供一条清晰的道路，让你学会编写能够自动获取网络数据的脚本。准备好开始你的网络数据抓取之旅了吗？让我们现在就开始吧！

请看我回答~

28 0 0

请看我回答~

|

19天前

|

数据采集 JavaScript 前端开发

Python 爬虫实战：抓取和解析网页数据

【8月更文挑战第31天】本文将引导你通过Python编写一个简单的网络爬虫，从网页中抓取并解析数据。我们将使用requests库获取网页内容，然后利用BeautifulSoup进行解析。通过本教程，你不仅能够学习到如何自动化地从网站收集信息，还能理解数据处理的基本概念。无论你是编程新手还是希望扩展你的技术工具箱，这篇文章都将为你提供有价值的见解。

请看我回答~

34 0 0

请看我回答~

|

19天前

|

数据采集存储 JavaScript

构建你的首个Python网络爬虫：抓取、解析与存储数据

【8月更文挑战第31天】在数字时代的浪潮中，数据成为了新的石油。了解如何从互联网的海洋中提取有价值的信息，是每个技术爱好者的必备技能。本文将引导你通过Python编程语言，利用其强大的库支持，一步步构建出你自己的网络爬虫。我们将探索网页请求、内容解析和数据存储等关键环节，并附上代码示例，让你轻松入门网络数据采集的世界。

请看我回答~

77 0 0

土木林森

|

19天前

|

JSON 数据库开发者

FastAPI入门指南：Python开发者必看——从零基础到精通，掌握FastAPI的全栈式Web开发流程，解锁高效编码的秘密！

【8月更文挑战第31天】在当今的Web开发领域，FastAPI迅速成为开发者的热门选择。本指南带领Python开发者快速入门FastAPI，涵盖环境搭建、基础代码、路径参数、请求体处理、数据库操作及异常处理等内容，帮助你轻松掌握这一高效Web框架。通过实践操作，你将学会构建高性能的Web应用，并为后续复杂项目打下坚实基础。

土木林森

35 0 0

shliang0603

|

21天前

|

数据可视化 Python

通过python建立一个web服务查看服务器上的文本、图片、视频等文件

通过python建立一个web服务查看服务器上的文本、图片、视频等文件

shliang0603

20 0 0

一个处女座的程序猿

|

Python

成功解决 python 不是内部或外部命令，也不是可运行的程序或批处理文件

成功解决 python 不是内部或外部命令，也不是可运行的程序或批处理文件

一个处女座的程序猿

479 0 0

成功解决 python 不是内部或外部命令，也不是可运行的程序或批处理文件

热门文章

最新文章

不做会死！互联网时代的企业必定都要实现中台

Python学习笔记-校验源与备份目录差异

【Python3爬虫】当爬虫碰到表单提交，有点意思

Python序列化

Python入门教程：内置函数—Map、Reduce、Filter

Python之pickle序列化

python 之装饰器执行过程简单解析

Python查询Google PageRank

第24讲 python文件的写操作基础

python sorted排序用法详解

「多线程大杀器」Python并发编程利器：ThreadPoolExecutor，让你一次性轻松开启多个线程，秒杀大量任务！

深入理解Python数据结构中的深浅拷贝

深入理解Python中的try-except语句，避免代码崩溃的噩梦

python编程简介（一）

python操作列表方法（二）

python操作列表方法（一）

python测试代码（三）

python测试代码（二）

python测试代码（一）

python函数用法（五）

相关课程

更多

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

用Python画圣诞树

Python选择及循环结构

云端Python及基本操作

Python网络通信程序典型应用

Python新手入门（Anolis OS）

Python新手入门

推荐镜像

更多

python-release

nodejs-release

linuxmint-packages

下一篇

基于LNMP搭建WordPress