JS动态加载以及JavaScript void(0)的爬虫解决方案
Intro
对于使用JS动态加载, 或者将下一页地址隐藏为JavaScript void(0)的网站, 如何爬取我们要的信息呢?
本文以Chrome浏览器为工具, 36Kr为示例网站, 使用 Json Handle 作为辅助信息解析工具, 演示如何抓取此类网站.
我们为什么使用Node
Node 已经迅速成为一个可行并且真正高效的web 开发平台。在Node 诞生之前,在服务端运行JavasScript 是件不可思议的事情,并且对其他的脚本语言来说,要实现非阻塞I/O 通常需要依赖特殊的类库。但Node 的出现改变了这一切。
Ajax跨域问题解决(Ajax JSONP)
因WEB安全原因,Ajax默认情况下是不能进行跨域请求的,遇到这种问题,自然难不倒可以改变世界的程序猿们,于是JSONP(JSON with Padding)被发明了,其就是对JSON的一种特殊,简单来说就是在原有的JSON数据上做了点手脚,从而达到可以让网页可以跨域请求。在现在互联网技术对“前后.
安装NodeJs运行环境
要用一样东西之前,当然是要先安装环境。Nodejs的安装网上一搜一大把,这里记录windows、linux、以及ubuntu apt-get的安装方式,方便在工作中快速查阅。