深入挖掘Python urllib

2024-08-11 26

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云解析 DNS，旗舰版 1个月

全局流量管理 GTM，标准版 1个月

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

简介： 【8月更文挑战第11天】`urllib` 是 Python 标准库中处理网络请求的核心组件，包含多个子模块以满足不同的需求。`urllib.request` 用于发送 HTTP 请求；`urllib.parse` 专门解析 URL；`urllib.error` 定义异常处理机制；`urllib.robotparser` 则用于解析 robots.txt 文件。这些模块提供了简洁的接口来执行如读取网页内容、解析 URL 结构、处理网络异常及遵守抓取规则等任务，是进行网络编程和 Web 开发的重要工具。

`urllib` 是 Python 中处理 URL 和网络请求的标准库，针对不同需求分为多个子模块。从 Python 3 起，重构后的 `urllib` 包括 `urllib.request` 用于发送 HTTP 请求，`urllib.parse` 处理 URL，`urllib.error` 定义异常，以及 `urllib.robotparser` 解析 robots.txt 文件，提供了强大且清晰的接口。

urllib.request

urllib.request模块主要用于打开及读取URLs。它为用户提供了一个简洁的接口来访问HTTP为主的URLs，操作方式类似于处理本地文件或文件类对象。

示例：使用 urllib.request 打开一个网页

from urllib.request import urlopen

打开一个网页

response = urlopen('http://www.baidu.com')

读取网页内容

html = response.read()

打印网页内容的前50个字符

print(html[:50].decode('utf-8')) # 需要解码，因为read()返回的是bytes

关闭连接

response.close()

urllib.parse

urllib.parse模块专门用于解析URLs，不仅能够将URL字符串拆解为其构成元素，还支持将这些元素重新组合成完整的URL字符串。

示例：使用 urllib.parse 解析URL

from urllib.parse import urlparse

解析URL

parsed_url = urlparse('http://www.baidu.com/path?query=string#fragment')

访问解析后的URL的各个部分

print(parsed_url.scheme) # http
print(parsed_url.netloc) # www.baidu.com
print(parsed_url.path) # /path
print(parsed_url.query) # query=string
print(parsed_url.fragment)# fragment

urllib.error

`urllib.error`模块集成了`urllib.request`引发的各种异常。这些异常能有效帮助开发者处理网络请求过程中可能遇到的问题，比如连接失败或HTTP错误等，确保程序稳定运行。

示例：处理 urllib.request 引发的异常

import logging
from urllib.request import urlopen
from urllib.error import HTTPError, URLError

def fetch_html(url):
try:
with urlopen(url) as response: # 使用 with 语句自动关闭资源
html = response.read()
return html[:50].decode('utf-8')
except HTTPError as e:
logging.error(f'HTTP error: {e.code}')
return None
except URLError as e:
logging.error(f'URL error: {e.reason}')
return None
except Exception as e:
logging.error(f'An unexpected error occurred: {e}')
return None

调用函数

url = 'http://www.baidu.com' # 示例 URL
result = fetch_html(url)
if result is not None:
print(result)

urllib.robotparser

urllib.robotparser模块专注于解析robots.txt文件。此文件是网站用来指导搜索引擎抓取页面的文本，通过它网站拥有者可以声明哪些页面允许被抓取，哪些禁止。这为搜索引擎提供了一种遵循的规范以尊重网站的抓取权限设定。

示例：使用 urllib.robotparser 解析 robots.txt

from urllib.robotparser import RobotFileParser

def can_fetch_url(robots_url, target_url):
try:
rp = RobotFileParser()
rp.set_url(robots_url)
rp.read()

    can_fetch = rp.can_fetch("*", target_url)
    return can_fetch
except Exception as e:
    logging.error(f"An error occurred while checking the robots.txt: {e}")
    return False

调用函数

robots_url = "http://www.baidu.com/robots.txt"
target_url = "http://www.baidu.com/some/page.html"

result = can_fetch_url(robots_url, target_url)
print(result)

以上模块共同为Python提供了强大的网络请求和URL处理能力，包括获取网页数据、解析URL、处理HTTP请求等核心网络任务，是进行网络编程和web开发的强大工具。

深入挖掘Python urllib

urllib.request

urllib.request模块主要用于打开及读取URLs。它为用户提供了一个简洁的接口来访问HTTP为主的URLs，操作方式类似于处理本地文件或文件类对象。

示例：使用 urllib.request 打开一个网页

打开一个网页

读取网页内容

打印网页内容的前50个字符

关闭连接

urllib.parse

urllib.parse模块专门用于解析URLs，不仅能够将URL字符串拆解为其构成元素，还支持将这些元素重新组合成完整的URL字符串。

示例：使用 urllib.parse 解析URL

解析URL

访问解析后的URL的各个部分

urllib.error

`urllib.error`模块集成了`urllib.request`引发的各种异常。这些异常能有效帮助开发者处理网络请求过程中可能遇到的问题，比如连接失败或HTTP错误等，确保程序稳定运行。

示例：处理 urllib.request 引发的异常

调用函数

urllib.robotparser

urllib.robotparser模块专注于解析robots.txt文件。此文件是网站用来指导搜索引擎抓取页面的文本，通过它网站拥有者可以声明哪些页面允许被抓取，哪些禁止。这为搜索引擎提供了一种遵循的规范以尊重网站的抓取权限设定。

示例：使用 urllib.robotparser 解析 robots.txt

调用函数

以上模块共同为Python提供了强大的网络请求和URL处理能力，包括获取网页数据、解析URL、处理HTTP请求等核心网络任务，是进行网络编程和web开发的强大工具。

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

深入挖掘Python urllib

urllib.request

urllib.request模块主要用于打开及读取URLs。它为用户提供了一个简洁的接口来访问HTTP为主的URLs，操作方式类似于处理本地文件或文件类对象。

示例：使用 urllib.request 打开一个网页

打开一个网页

读取网页内容

打印网页内容的前50个字符

关闭连接

urllib.parse

urllib.parse模块专门用于解析URLs，不仅能够将URL字符串拆解为其构成元素，还支持将这些元素重新组合成完整的URL字符串。

示例：使用 urllib.parse 解析URL

解析URL

访问解析后的URL的各个部分

urllib.error

urllib.error模块集成了urllib.request引发的各种异常。这些异常能有效帮助开发者处理网络请求过程中可能遇到的问题，比如连接失败或HTTP错误等，确保程序稳定运行。

示例：处理 urllib.request 引发的异常

调用函数

urllib.robotparser

urllib.robotparser模块专注于解析robots.txt文件。此文件是网站用来指导搜索引擎抓取页面的文本，通过它网站拥有者可以声明哪些页面允许被抓取，哪些禁止。这为搜索引擎提供了一种遵循的规范以尊重网站的抓取权限设定。

示例：使用 urllib.robotparser 解析 robots.txt

调用函数

以上模块共同为Python提供了强大的网络请求和URL处理能力，包括获取网页数据、解析URL、处理HTTP请求等核心网络任务，是进行网络编程和web开发的强大工具。

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

`urllib.error`模块集成了`urllib.request`引发的各种异常。这些异常能有效帮助开发者处理网络请求过程中可能遇到的问题，比如连接失败或HTTP错误等，确保程序稳定运行。