python数据抓取分析(python + mongodb)

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: 分享点干货!!! Python数据抓取分析 编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: 1 def step(): 2 try: 3 headers = { 4 。

分享点干货!!!

Python数据抓取分析

编程模块:requests,lxml,pymongo,time,BeautifulSoup

首先获取所有产品的分类网址:

 1 def step():
 2     try:
 3         headers = {
 4            。。。。。
 5             }
 6         r = requests.get(url,headers,timeout=30)
 7         html = r.content
 8         soup = BeautifulSoup(html,"lxml")
 9         url = soup.find_all(正则表达式)
10         for i in url:
11             url2 =  i.find_all('a')
12             for j in url2:
13                  step1url =url + j['href']
14                  print step1url
15                  step2(step1url)
16     except Exception,e:
17         print e

 

我们在产品分类的同时需要确定我们所访问的地址是产品还是又一个分类的产品地址(所以需要判断我们访问的地址是否含有if判断标志):

 1 def step2(step1url):
 2     try:
 3         headers = {
 4            。。。。
 5             }
 6         r = requests.get(step1url,headers,timeout=30)
 7         html = r.content
 8         soup = BeautifulSoup(html,"lxml")
 9         a = soup.find('div',id='divTbl')
10         if a:
11             url = soup.find_all('td',class_='S-ITabs')
12             for i in url:
13                 classifyurl =  i.find_all('a')
14                 for j in classifyurl:
15                      step2url = url + j['href']
16                      #print step2url
17                      step3(step2url)
18         else:
19             postdata(step1url)

当我们if判断后为真则将第二页的分类网址获取到(第一个步骤),否则执行postdata函数,将网页产品地址抓取!

 1 def producturl(url):
 2     try:
 3         p1url = doc.xpath(正则表达式)
 4         for i in xrange(1,len(p1url) + 1):
 5             p2url = doc.xpath(正则表达式)
 6             if len(p2url) > 0:
 7                 producturl = url + p2url[0].get('href')
 8                 count = db[table].find({'url':producturl}).count()
 9                 if count <= 0:
10                         sn = getNewsn()
11                         db[table].insert({"sn":sn,"url":producturl})
12                         print str(sn) + 'inserted successfully'
13                 else:
14                         'url exist'
15 
16     except Exception,e:
17         print e

其中为我们所获取到的产品地址并存入mongodb中,sn作为地址的新id。

下面我们需要在mongodb中通过新id索引来获取我们的网址并进行访问,对产品进行数据分析并抓取,将数据更新进数据库内!

其中用到最多的BeautifulSoup这个模块,但是对于存在于js的价值数据使用BeautifulSoup就用起来很吃力,所以对于js中的数据我推荐使用xpath,但是解析网页就需要用到HTML.document_fromstring(url)方法来解析网页。

对于xpath抓取价值数据的同时一定要细心!如果想了解xpath就在下面留言,我会尽快回答!

 1 def parser(sn,url):
 2     try:
 3         headers = {
 4             。。。。。。
 5             }
 6         r = requests.get(url, headers=headers,timeout=30)
 7         html = r.content
 8         soup = BeautifulSoup(html,"lxml")
 9         dt = {}
10         #partno
11         a = soup.find("meta",itemprop="mpn")
12         if a:
13             dt['partno'] = a['content']
14         #manufacturer
15         b = soup.find("meta",itemprop="manufacturer")
16         if b:
17             dt['manufacturer'] = b['content']
18         #description
19         c = soup.find("span",itemprop="description")
20         if c:
21             dt['description'] = c.get_text().strip()
22         #price
23         price = soup.find("table",class_="table table-condensed occalc_pa_table")
24         if price:
25             cost = {}
26             for i in price.find_all('tr'):
27                 if len(i) > 1:
28                     td = i.find_all('td')
29                     key=td[0].get_text().strip().replace(',','')
30                     val=td[1].get_text().replace(u'\u20ac','').strip()
31                     if key and val:
32                         cost[key] = val
33             if cost:
34                 dt['cost'] = cost
35                 dt['currency'] = 'EUR'
36         
37         #quantity
38         d = soup.find("input",id="ItemQuantity")
39         if d:
40            dt['quantity'] = d['value']
41         #specs
42         e = soup.find("div",class_="row parameter-container")
43         if e:
44             key1 = []
45             val1= []
46             for k in e.find_all('dt'):
47                 key =  k.get_text().strip().strip('.')
48                 if key:
49                     key1.append(key)
50             for i in e.find_all('dd'):
51                 val =  i.get_text().strip()
52                 if val:
53                     val1.append(val)
54             specs = dict(zip(key1,val1))
55         if specs:
56             dt['specs'] = specs
57             print dt
58 
59             
60         if dt:
61             db[table].update({'sn':sn},{'$set':dt})
62             print str(sn) +  ' insert successfully'
63             time.sleep(3)
64         else:
65             error(str(sn) + '\t' + url)
66     except Exception,e:
67         error(str(sn) + '\t' + url)
68         print "Don't data!"

最后全部程序运行,将价值数据分析处理并存入数据库中!

 

Welcome to Python world! I have a contract in this world! How about you?
相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。 &nbsp; 相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
相关文章
|
11天前
|
数据挖掘 PyTorch TensorFlow
|
5天前
|
机器学习/深度学习 数据采集 算法
数据稀缺条件下的时间序列微分:符号回归(Symbolic Regression)方法介绍与Python示例
有多种方法可以处理时间序列数据中的噪声。本文将介绍一种在我们的研究项目中表现良好的方法,特别适用于时间序列概况中数据点较少的情况。
20 1
数据稀缺条件下的时间序列微分:符号回归(Symbolic Regression)方法介绍与Python示例
|
1天前
|
机器学习/深度学习 JSON API
HTTP协议实战演练场:Python requests库助你成为网络数据抓取大师
在数据驱动的时代,网络数据抓取对于数据分析、机器学习等至关重要。HTTP协议作为互联网通信的基石,其重要性不言而喻。Python的`requests`库凭借简洁的API和强大的功能,成为网络数据抓取的利器。本文将通过实战演练展示如何使用`requests`库进行数据抓取,包括发送GET/POST请求、处理JSON响应及添加自定义请求头等。首先,请确保已安装`requests`库,可通过`pip install requests`进行安装。接下来,我们将逐一介绍如何利用`requests`库探索网络世界,助你成为数据抓取大师。在实践过程中,务必遵守相关法律法规和网站使用条款,做到技术与道德并重。
7 2
|
2天前
|
数据采集 存储 数据挖掘
如何利用Python进行网页数据抓取
本文将详细介绍如何使用Python进行网页数据抓取。首先,我们将了解什么是网络爬虫以及其基本原理。然后,逐步讲解如何使用Python的requests库和BeautifulSoup库来抓取和解析网页数据。最后,通过实例展示如何实际应用这些技术来获取所需的数据并进行简单的数据处理。希望通过这篇文章,读者能够掌握基本的网页数据抓取技巧,并能在实际应用中灵活运用。
|
2天前
|
机器学习/深度学习 存储 人工智能
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
使用Python作为开发语言,基于文本数据集(一个积极的xls文本格式和一个消极的xls文本格式文件),使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
11 0
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
|
8天前
|
算法 Python
揭秘!Python数据魔术师如何玩转线性回归,让你的预测精准到不可思议
【9月更文挑战第13天】在数据科学领域,线性回归以其优雅而强大的特性,将复杂的数据关系转化为精准的预测模型。本文将揭秘Python数据魔术师如何利用这一统计方法,实现令人惊叹的预测精度。线性回归假设自变量与因变量间存在线性关系,通过拟合直线或超平面进行预测。Python的scikit-learn库提供了简便的LinearRegression类,使模型构建、训练和预测变得简单直接。
22 5
|
6天前
|
机器学习/深度学习 数据可视化 搜索推荐
使用Python实现深度学习模型:智能睡眠监测与分析
使用Python实现深度学习模型:智能睡眠监测与分析
27 2
|
7天前
|
机器学习/深度学习 搜索推荐 TensorFlow
使用Python实现深度学习模型:智能饮食建议与营养分析
使用Python实现深度学习模型:智能饮食建议与营养分析
32 3
|
8天前
|
NoSQL JavaScript Java
Java Python访问MongoDB
Java Python访问MongoDB
14 4
|
10天前
|
存储 算法 测试技术
预见未来?Python线性回归算法:数据中的秘密预言家
【9月更文挑战第11天】在数据的海洋中,线性回归算法犹如智慧的预言家,助我们揭示未知。本案例通过收集房屋面积、距市中心距离等数据,利用Python的pandas和scikit-learn库构建房价预测模型。经过训练与测试,模型展现出较好的预测能力,均方根误差(RMSE)低,帮助房地产投资者做出更明智决策。尽管现实关系复杂多变,线性回归仍提供了有效工具,引领我们在数据世界中自信前行。
28 5