开发者社区> 问答> 正文

如何用python爬取ajax网页的内容

比如下面这个网站:
http://www.ncbi.nlm.nih.gov/pubmed?term=%28%222013%22%5BDate%20-%20Publication%5D%20%3A%20%222013%22%5BDate%20-%20Publication%5D%29
筛选了2013年发表的论文。

1.第一页只显示了20篇,总共有1132539篇
2.我点击next后,网页显示的是第二页的内容。这时url会变成http://www.ncbi.nlm.nih.gov/pubmed
3.再点击next,显示第三页的内容,这时url还是http://www.ncbi.nlm.nih.gov/pubmed
......

而如果你复制这个地址:http://www.ncbi.nlm.nih.gov/pubmed,浏览器并不会跳到第2/3/4...页。

我咨询了一个同学,他说这是用ajax处理的,但具体如何爬取剩下的内容他也不知道。

那么如何爬取所有的内容?(当然第一页的内容很简单,我已经爬取出来了)
先谢谢各位了。

展开
收起
a123456678 2016-07-29 11:51:29 2915 0
1 条回答
写回答
取消 提交回答
  • beautifulsoup只能获得静态html,不能模拟界面操作。

    你的需求,可以用selenium webdriver来实现。selenium webdriver可以模拟浏览器操作,比如你的需求,只要用webdriver的接口,找到下一页按钮的DOM节点,给它发送点击事件,就可以了。

    2019-07-17 20:01:47
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
From Python Scikit-Learn to Sc 立即下载
Data Pre-Processing in Python: 立即下载
双剑合璧-Python和大数据计算平台的结合 立即下载