抓取网页和二进制数据

简介: 简单使用

抓取网页

上面请求链接返回的是JSON格式的字符串,那么请求普通的网页,就能获取到相对应的内容根据例
r=requests.get("https://ssr1.scrape.center/")
pattern=re.compile("<h2.?>(.?)",re.S)
titles=re.findall(pattern,r.text)
print(titles)
image.png
这就是最简单的一个抓取和提取的过程

抓取二进制数据

我们抓取的是一个页面他的实质是HTML文档,但是当我们要爬取图片,音频,视频时,这些文件本质上都是由二进制码组成的,要抓取他们,就必须要拿到他们的二进制数据,抓取站点图标,也就是浏览器中每一个标签上显示的的小图标,
爬取到的数据为二进制数据,我们可以通过open方法打开并保存图片。

添加请求头

我们可以通过headers参数来添加请求头,我们可以在其中添加任何的字段,如果我们想添加一个请求头的User-Agent字段我们可以
import requests
headers={
"User-Agent":"Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4" AppleWebkit/537(KHTML,like Cecko)Chrome/52.0.2743.116 Safari/ 537.36"
r=requsts.get("https://ssr1.scrape.center/",headers=headers)
print(r.text)
当然我们也可以在headers参数中添加任何其他字段信息
}

相关文章
|
搜索推荐 程序员 调度
精通Python异步编程:利用Asyncio与Aiohttp构建高效网络应用
【10月更文挑战第5天】随着互联网技术的快速发展,用户对于网络应用的响应速度和服务质量提出了越来越高的要求。为了构建能够处理高并发请求、提供快速响应时间的应用程序,开发者们需要掌握高效的编程技术和框架。在Python语言中,`asyncio` 和 `aiohttp` 是两个非常强大的库,它们可以帮助我们编写出既简洁又高效的异步网络应用。
459 1
|
Linux 编译器
Linux alloca函数栈动态内存分配
Linux C提供了在**栈中动态分配内存**的函数`alloca`,用法和`malloc`一样,但不用`free`,因为他是在栈中分配空间,超出定义域后自动释放
271 0
|
存储 运维 数据处理
AIGC浪潮对数据中心基础设施发展的影响
【1月更文挑战第19天】AIGC浪潮对数据中心基础设施发展的影响
444 1
AIGC浪潮对数据中心基础设施发展的影响
|
2月前
|
自然语言处理 JavaScript API
百宝箱开放平台 ✖️ 开发流程
本文介绍通过开放平台集成智能体能力的流程,包括创建发布应用、获取授权令牌及调用API/SDK三步。涵盖智能体调用、模型测评、文件操作等接口,并提供Java、Python、Node.js及Web SDK支持,助力开发者快速实现智能对话与内容生成功能集成。(239字)
237 0
百宝箱开放平台 ✖️ 开发流程
|
9月前
|
关系型数据库 MySQL 数据库连接
docker拉取MySQL后数据库连接失败解决方案
通过以上方法,可以解决Docker中拉取MySQL镜像后数据库连接失败的常见问题。关键步骤包括确保容器正确启动、配置正确的环境变量、合理设置网络和权限,以及检查主机防火墙设置等。通过逐步排查,可以快速定位并解决连接问题,确保MySQL服务的正常使用。
1558 82
|
5月前
|
存储 算法 安全
JAVA 八股文全网最详尽整理包含各类核心考点助你高效学习 jAVA 八股文赶紧收藏
本文整理了Java核心技术内容,涵盖Java基础、多线程、JVM、集合框架等八股文知识点,包含面向对象特性、线程创建与通信、运行时数据区、垃圾回收算法及常用集合类对比,附有代码示例与学习资料下载链接,适合Java开发者系统学习与面试准备。
1230 0
|
7月前
|
机器学习/深度学习 人工智能 算法
Python+YOLO v8 实战:手把手教你打造专属 AI 视觉目标检测模型
本文介绍了如何使用 Python 和 YOLO v8 开发专属的 AI 视觉目标检测模型。首先讲解了 YOLO 的基本概念及其高效精准的特点,接着详细说明了环境搭建步骤,包括安装 Python、PyCharm 和 Ultralytics 库。随后引导读者加载预训练模型进行图片验证,并准备数据集以训练自定义模型。最后,展示了如何验证训练好的模型并提供示例代码。通过本文,你将学会从零开始打造自己的目标检测系统,满足实际场景需求。
6960 0
Python+YOLO v8 实战:手把手教你打造专属 AI 视觉目标检测模型
|
缓存 负载均衡 监控
如何优化网络传输效率?
如何优化网络传输效率?
1482 2
|
编译器 Linux C语言
C/C++ 常见函数调用约定(__stdcall,__cdecl,__fastcall等):介绍常见函数调用约定的基本概念、用途和作用
C/C++ 常见函数调用约定(__stdcall,__cdecl,__fastcall等):介绍常见函数调用约定的基本概念、用途和作用
1157 0
|
人工智能 运维 DataWorks
语雀+通义千问+DataWorks,让AI定期推送每周总结
DataWorks 数据开发提供强大的工作流及调度能力,且近期上线了数据推送节点,这篇文章简单利用 Shell + AI + 数据推送节点来完成每周工作内容总结。
1551 7
语雀+通义千问+DataWorks,让AI定期推送每周总结