同期来自蚂蚁金服的金融支付数据显示:截至18时55分,支付宝支付笔数达到了8.2亿笔,已超过了去年全天的支付笔数,移动支付笔数超过了5.8亿笔,占比超七成。
下面我们用Python通过抓取百度搜索“双十一”关键词的所有文本,对新闻文本进行文本挖掘,并对双十一微博关键词和相关博主的新闻传播路径进行分析。
主要利用beautifulsoup、urllib2、string等函数库对文本进行抓取
主要代码片段如下:
if __name__=='__main__':
myname=raw_input("请输入关键词\n")
keywordsnum=raw_input("请输入关联词个数\n")
if int(keywordsnum) == 0:
keywords=[myname]
else:
keywords=['']*int(keywordsnum)
for k in range(int(keywordsnum)):
keywords[k]=raw_input("请输入关联的关键字%d\n"%(k+1))
url1 = "http://www.baidu.com/s?wd="+myname
response1 = urllib2.urlopen(url1)
content1 = response1.read()
soup1 = BeautifulSoup(content1,'lxml')
site1 = soup1.find(class_="nums").get_text()
num = string.atoi(OnlyCharNum(site1[11:-1].strip() .lstrip() .rstrip(',')))
page = num/10
print num,page
filename=myname+".txt"
myfile=open(filename,"w")
keywordshownum=0
执行脚本后输入双十一关键词会进行抓取,界面如下:
抓取的结果放进txt文档以便进行后续分析,
通过jieba分词等函数库或者分词软件对txt文本进行词频分析,得出以下结果,显示词语的出现次数和频率等,可以进一步进行可视化处理生成标签云等:
本文完整源码下载地址:
http://pan.baidu.com/s/1i54raZF
在Python中文社区底部回复“双十一”三个字获取本文完整源码下载密码。
对微博双十一、淘宝、京东关键词进行挖掘得出以下相关联的一些微博博主:
原文发布时间为:2016-11-11
本文作者:阿橙
本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号