备案控制台

开发者社区开发与运维文章正文

抓取网页和二进制数据

2023-02-18 360

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 简单使用

抓取网页

上面请求链接返回的是JSON格式的字符串，那么请求普通的网页，就能获取到相对应的内容根据例
r=requests.get("https://ssr1.scrape.center/")
pattern=re.compile("<h2.?>(.?)",re.S)
titles=re.findall(pattern,r.text)
print(titles)

这就是最简单的一个抓取和提取的过程

抓取二进制数据

我们抓取的是一个页面他的实质是HTML文档，但是当我们要爬取图片，音频，视频时，这些文件本质上都是由二进制码组成的，要抓取他们，就必须要拿到他们的二进制数据，抓取站点图标，也就是浏览器中每一个标签上显示的的小图标，
爬取到的数据为二进制数据，我们可以通过open方法打开并保存图片。

添加请求头

我们可以通过headers参数来添加请求头，我们可以在其中添加任何的字段，如果我们想添加一个请求头的User-Agent字段我们可以
import requests
headers={
"User-Agent":"Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4" AppleWebkit/537(KHTML,like Cecko)Chrome/52.0.2743.116 Safari/ 537.36"
r=requsts.get("https://ssr1.scrape.center/",headers=headers)
print(r.text)
当然我们也可以在headers参数中添加任何其他字段信息
}

文章标签：

iOS开发

MacOS

Web App开发

数据格式

JSON

游客vchhg2ptkd6kw

目录

相关文章

郑小健

|

搜索推荐程序员调度

精通Python异步编程：利用Asyncio与Aiohttp构建高效网络应用

【10月更文挑战第5天】随着互联网技术的快速发展，用户对于网络应用的响应速度和服务质量提出了越来越高的要求。为了构建能够处理高并发请求、提供快速响应时间的应用程序，开发者们需要掌握高效的编程技术和框架。在Python语言中，`asyncio` 和 `aiohttp` 是两个非常强大的库，它们可以帮助我们编写出既简洁又高效的异步网络应用。

郑小健

459 1 1

新法

|

Linux 编译器

Linux alloca函数栈动态内存分配

Linux C提供了在**栈中动态分配内存**的函数`alloca`，用法和`malloc`一样，但不用`free`，因为他是在栈中分配空间，超出定义域后自动释放

新法

271 0 0

楠竹11

|

存储运维数据处理

AIGC浪潮对数据中心基础设施发展的影响

【1月更文挑战第19天】AIGC浪潮对数据中心基础设施发展的影响

楠竹11

444 1 1

AIGC浪潮对数据中心基础设施发展的影响

蚂蚁百宝箱

|

2月前

|

自然语言处理 JavaScript API

百宝箱开放平台 ✖️ 开发流程

本文介绍通过开放平台集成智能体能力的流程，包括创建发布应用、获取授权令牌及调用API/SDK三步。涵盖智能体调用、模型测评、文件操作等接口，并提供Java、Python、Node.js及Web SDK支持，助力开发者快速实现智能对话与内容生成功能集成。（239字）

蚂蚁百宝箱

237 0 0

百宝箱开放平台 ✖️ 开发流程

蓝易云

|

9月前

|

关系型数据库 MySQL 数据库连接

docker拉取MySQL后数据库连接失败解决方案

通过以上方法，可以解决Docker中拉取MySQL镜像后数据库连接失败的常见问题。关键步骤包括确保容器正确启动、配置正确的环境变量、合理设置网络和权限，以及检查主机防火墙设置等。通过逐步排查，可以快速定位并解决连接问题，确保MySQL服务的正常使用。

蓝易云

1558 82 82

啦啦啦191

|

5月前

|

存储算法安全

JAVA 八股文全网最详尽整理包含各类核心考点助你高效学习 jAVA 八股文赶紧收藏

本文整理了Java核心技术内容，涵盖Java基础、多线程、JVM、集合框架等八股文知识点，包含面向对象特性、线程创建与通信、运行时数据区、垃圾回收算法及常用集合类对比，附有代码示例与学习资料下载链接，适合Java开发者系统学习与面试准备。

啦啦啦191

1230 0 1

Harry技术

|

7月前

|

机器学习/深度学习人工智能算法

Python+YOLO v8 实战：手把手教你打造专属 AI 视觉目标检测模型

本文介绍了如何使用 Python 和 YOLO v8 开发专属的 AI 视觉目标检测模型。首先讲解了 YOLO 的基本概念及其高效精准的特点，接着详细说明了环境搭建步骤，包括安装 Python、PyCharm 和 Ultralytics 库。随后引导读者加载预训练模型进行图片验证，并准备数据集以训练自定义模型。最后，展示了如何验证训练好的模型并提供示例代码。通过本文，你将学会从零开始打造自己的目标检测系统，满足实际场景需求。

Harry技术

6960 0 0

Python+YOLO v8 实战：手把手教你打造专属 AI 视觉目标检测模型

sunrr

|

缓存负载均衡监控

如何优化网络传输效率？

如何优化网络传输效率？

sunrr

1482 2 2

泡沫o0

|

编译器 Linux C语言

C/C++ 常见函数调用约定（__stdcall，__cdecl，__fastcall等）：介绍常见函数调用约定的基本概念、用途和作用

C/C++ 常见函数调用约定（__stdcall，__cdecl，__fastcall等）：介绍常见函数调用约定的基本概念、用途和作用

泡沫o0

1157 0 0

caramel

|

人工智能运维 DataWorks

语雀+通义千问+DataWorks，让AI定期推送每周总结

DataWorks 数据开发提供强大的工作流及调度能力，且近期上线了数据推送节点，这篇文章简单利用 Shell + AI + 数据推送节点来完成每周工作内容总结。

caramel

1551 7 7

语雀+通义千问+DataWorks，让AI定期推送每周总结

热门文章

最新文章

阿里云代码管理平台云效Codeup亮相，为企业代码安全护航

Podman入门全指南：安装、配置与运行容器

Docker部署WordPress LNMP(Nginx PHP MySQL)环境实践

一起爪哇Java 8（三）——好用的Stream

Supervisor 、Supervisord-Monitor 的web统一管理安装、配置、使用

set -e 的作用

盲测调查显示女码农比男码农更优秀

Deploy SCO IP using Powershell

win8快捷键大全分享，非常全

阿里云服务器ECS和其他云服务器对比，有哪些特点和优势？

《天梯榜三重防护：数据实时校准与反刷榜技术实践指南》

《KOL/KOC与买量投放的深度融合优化指南》

阿里云AI智能建站系统万小智介绍、配置价格及版本功能支持说明

技术人对抗焦虑的加减法

通过述职发现自己"变"了

重复性工作中如何培养匠心

技术新人成长到Leader的路径

阿里巴巴-云效

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

安全设备篇——WAF