备案控制台

开发者社区开发与运维文章正文

Python爬虫(应朋友之邀)-功能实现版

2018-11-03 1077

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

环境：win10 py37

工具：pyCharm anaconda

主要包：BeautifulSoup,re

代码：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import re
from urllib import request

from bs4 import BeautifulSoup

html = request.urlopen("http://data.eastmoney.com/report/20181101/APPISWTR4upPASearchReport.html")
bs = BeautifulSoup(html, "html.parser")
print("title")
print(bs.title)

print("meta")
links = bs.find_all("meta")
count = 0
for link in links:
    count = count + 1
    print(count)
    attrs = link.attrs
    if "name" in attrs.keys():
        print("name:", attrs['name'])
    if "http-equiv" in attrs.keys():
        print("httpEquiv:", attrs['http-equiv'])
    if "content" in attrs.keys():
        print("content:", attrs['content'])

print("p")
ps = bs.find_all("p")
index = -1
for p in ps:
    contents = p.contents
    if len(contents) > 0:
        content = contents[0]
        if str(content).__contains__("盈利预测"):
            index = ps.index(p)
            break
needContent = ""
if index != -1:
    index = index + 2
    needContent = str(ps[index])
print(needContent)

match1 = re.search(r'[\u4e00-\u9fa5]{4}20[0-9]{2}[\u4e00-\u9fa5]-20[0-9]{2}[\u4e00-\u9fa5]', needContent)
match2 = re.search(r'EPS为.*元', needContent)
match3 = re.search(r'([\u4e00-\u9fa5]{4}“).*”[\u4e00-\u9fa5]{2}', needContent)
print(match1.group())
print(match2.group())
print(match3.group())

文章标签：

Python

索引

Web App开发

数据采集

关键词：

Python爬虫

Python功能

爬虫python

爬虫功能

Python功能实现

swinblacksea

目录

相关文章

游客7q6odlcu3jr5c

|

16天前

|

安全前端开发数据库

Python 语言结合 Flask 框架来实现一个基础的代购商品管理、用户下单等功能的简易系统

这是一个使用 Python 和 Flask 框架实现的简易代购系统示例，涵盖商品管理、用户注册登录、订单创建及查看等功能。通过 SQLAlchemy 进行数据库操作，支持添加商品、展示详情、库存管理等。用户可注册登录并下单，系统会检查库存并记录订单。此代码仅为参考，实际应用需进一步完善，如增强安全性、集成支付接口、优化界面等。

游客7q6odlcu3jr5c

41 1 1

mrq4nk6ni2neg

|

1月前

|

开发框架数据建模中间件

Python中的装饰器：简化代码，增强功能

在Python的世界里，装饰器是那些静悄悄的幕后英雄。它们不张扬，却能默默地为函数或类增添强大的功能。本文将带你了解装饰器的魅力所在，从基础概念到实际应用，我们一步步揭开装饰器的神秘面纱。准备好了吗？让我们开始这段简洁而富有启发性的旅程吧！

mrq4nk6ni2neg

46 6 6

爱专研的技术土狗

|

1月前

|

数据采集存储 XML

Python爬虫：深入探索1688关键词接口获取之道

在数字化经济中，数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台，其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术，合法合规地获取1688关键词接口，助力商家洞察市场趋势，优化营销策略。

爱专研的技术土狗

92 3 4

API小知识

|

12天前

|

数据采集供应链 API

Python爬虫与1688图片搜索API接口：深度解析与显著收益

在电子商务领域，数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场，提供了丰富的API接口，特别是图片搜索API（`item_search_img`），允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口，提升搜索效率和用户体验，助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等，显著提高运营效率和市场竞争力。

API小知识

43 3 3

小白学大数据

|

23天前

|

数据采集存储缓存

如何使用缓存技术提升Python爬虫效率

如何使用缓存技术提升Python爬虫效率

小白学大数据

45 2 2

小白学大数据

|

24天前

|

数据采集 Web App开发监控

Python爬虫：爱奇艺榜单数据的实时监控

Python爬虫：爱奇艺榜单数据的实时监控

小白学大数据

71 3 3

爱专研的技术土狗

|

1月前

|

数据采集 JSON API

如何利用Python爬虫淘宝商品详情高级版（item_get_pro）API接口及返回值解析说明

本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口（item_get_pro），获取商品的详细信息，包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容，强调了数据获取的合规性和安全性。

爱专研的技术土狗

91 13 13

爱专研的技术土狗

|

1月前

|

数据采集存储 API

利用Python爬虫获取1688关键词接口全攻略

本文介绍如何使用Python爬虫技术合法合规地获取1688关键词接口数据，包括环境准备、注册1688开发者账号、获取Access Token、构建请求URL、发送API请求、解析HTML及数据处理存储等步骤，强调遵守法律法规和合理使用爬虫技术的重要性。

爱专研的技术土狗

109 5 5

shuj

|

1月前

|

测试技术 Python

探索Python中的装饰器：简化代码，增强功能

在Python的世界中，装饰器是那些能够为我们的代码增添魔力的小精灵。它们不仅让代码看起来更加优雅，还能在不改变原有函数定义的情况下，增加额外的功能。本文将通过生动的例子和易于理解的语言，带你领略装饰器的奥秘，从基础概念到实际应用，一起开启Python装饰器的奇妙旅程。

shuj

49 11 11

我不是游客20240119

|

1月前

|

Python

探索Python中的装饰器：简化代码，增强功能

在Python的世界里，装饰器就像是给函数穿上了一件神奇的外套，让它们拥有了超能力。本文将通过浅显易懂的语言和生动的比喻，带你了解装饰器的基本概念、使用方法以及它们如何让你的代码变得更加简洁高效。让我们一起揭开装饰器的神秘面纱，看看它是如何在不改变函数核心逻辑的情况下，为函数增添新功能的吧！

我不是游客20240119

45 5 5

热门文章

最新文章

FireCrawl：开源 AI 网络爬虫工具，自动爬取网站及子页面内容，预处理为结构化数据

如何使用缓存技术提升Python爬虫效率

网络爬虫性能提升：requests.Session的会话持久化策略

Python爬虫与1688图片搜索API接口：深度解析与显著收益

高级技术文章：使用 Kotlin 和 Unirest 构建高效的 Facebook 图像爬虫

异步请求在TypeScript网络爬虫中的应用

jsdom爬虫程序中eBay主页内容爬取的异步处理

[python 技巧] 快速掌握Streamlit: python快速原型开发工具

农历节日倒计时：基于Python的公历与农历日期转换及节日查询小程序

10个必备Python调试技巧：从pdb到单元测试的开发效率提升指南

如何将训练好的Python模型给JavaScript使用？

python 图片打水印透明图片合并

Python 数据结构和算法实用指南（四）（4）

Python 数据结构和算法实用指南（四）（3）

Python 数据结构和算法实用指南（四）（2）

Python 数据结构和算法实用指南（三）（3）

【Python】—— pandas 数据分析

Python 数据结构和算法实用指南（三）（1）

【Python】—— 如果使用matplotlib做数据可视化

python自动化测试实战 —— 单元测试框架

相关课程

更多

Python Web开发基础

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

用Python画圣诞树

Python选择及循环结构

云端Python及基本操作

Python网络通信程序典型应用

实验手册指导文档

Python新手入门（Anolis OS）

推荐镜像

更多

python-release

nodejs-release

debian-cd

下一篇

巧用对象存储回源绕过SSRF限制