给定关键字,是否可以从Google搜索结果页面获取网址?实际上,我有一个包含很多公司名称的csv文件。我想要一个网站,它显示在google搜索结果的顶部,当我上传该csv文件时,它会提取公司名称/关键字并将其放在搜索字段中。
例如:-* stackoverflow ,这是我的csv文件中的一项,应将其提取并放入搜索字段中,并应从搜索结果中返回最佳匹配/第一个url。例如:- www.stackoverflow.com \ *
并且此返回结果应存储在我上载的相同文件中,并在要搜索的关键字旁边。
我对这些概念了解不多,因此将不胜感激。谢谢!
问题来源:stackoverflow
谷歌包有一个对beautifulsoup的依赖,需要先安装。
然后安装:* pip安装google *
search(query, tld='com', lang='en', num=10, start=0, stop=None, pause=2.0)
query *:我们要搜索的查询字符串。
tld *:tld代表顶级域名,这意味着我们要在google.com或google.in或其他某个域名上搜索结果。
lang *:lang代表语言。
num *:我们想要的结果数。
start *:要检索的第一个结果。
stop *:要检索的最后结果。使用“无”可永久搜索。
pause *:间隔以在HTTP请求之间等待。时间间隔太短可能会导致Google阻止您的IP。保持较大的延迟将使您的程序变慢,但它是安全且更好的选择。
Return *:生成器(迭代器)产生找到的URL。如果stop参数为None,则迭代器将永远循环。
以下代码是针对您问题的解决方案。
import pandas
from googlesearch import search
df = pandas.read_csv('test.csv')
result = []
for i in range(len(df['keys'])):
for j in search(df['keys'][i], tld="com", num=10, stop=1, pause=2):
result.append(j)
dict1 = {'keys': df['keys'], 'url': result}
df = pandas.DataFrame(dict1)
df.to_csv('test.csv')
样本输入格式文件图像:
输出文件图像:
回答来源:stackoverflow
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。