炒爬虫违法真的看不下去了

简介:   这一阵看到一直有人在提爬虫违法的事情,先把一些似是而非/模棱两可的新闻和真假不明的对话一一列举,后把违法事情描述成是因为写了爬虫导致的,然后把锅甩给爬虫,这是严重误导人啊。  文章中所举新闻是某简历大数据公司非法获取/售卖个人简历的事情。这个违法事情跟是不是用爬虫抓的简历没有因果关系。你找几个人每天靠人肉去网上收集个人信息,售卖这些信息也是犯法;你就算是在垃圾堆里翻到一堆人员信息拿去卖也是犯法的。

  这一阵看到一直有人在提爬虫违法的事情,先把一些似是而非/模棱两可的新闻和真假不明的对话一一列举,后把违法事情描述成是因为写了爬虫导致的,然后把锅甩给爬虫,这是严重误导人啊。

  文章中所举新闻是某简历大数据公司非法获取/售卖个人简历的事情。这个违法事情跟是不是用爬虫抓的简历没有因果关系。你找几个人每天靠人肉去网上收集个人信息,售卖这些信息也是犯法;你就算是在垃圾堆里翻到一堆人员信息拿去卖也是犯法的。

  因为这是侵犯公民个人信息罪,窃取/提供/售卖/非法使用个人信息(电话,住址,征信等等)。我们目前看到的几则新闻都跟个人征信,个人隐私数据非法使用有关。尤其是P2P行业和为P2P行业提供征信服务等技术支持的公司,最近处在风口浪尖,他们的公民隐私数据很多都来路不正,在暗网购买,灰色渠道收集,每个月给用户发送的营销骚扰短息消耗都是数百万人民币。

  就像我之前说的一样,你开发网站/APP是不违法的,但是你用网站/APP非法收集用户信息,或做黄赌毒/灰色地带的网站/APP就是违法。但你确不能说开发网站就是违法,取决你做的那件事情是否违法。

  这一阵好几家公司传闻被抓的新闻有点多的原因,我个人认为是P2P行业最近在被严厉整治的原因。

  最近看到不明真相的人都不敢用爬虫抓数据了,我也是无语了。二手拍卖平台爬虫无论是几年前火热的大数据时代还是这两年热炒的人工智能都是不可或缺的。无论是做舆情/数据分析/模型训练都需要大量数据,这些数据大多公司都需要靠外部抓取完成。

  那我们在抓取/使用数据时应该注意些什么,以免误入雷区呢?

  1.不要碰隐私/国防/科研相关数据。这个是大雷区。

  2.如果实在要做跟个人相关的数据研究。要注意敏感信息脱敏,去掉个人隐私方面的。

  3.公开使用有知识产权的数据,会引起商业公司间的经济纠纷。比如百度在百度地图里加上了大众点评商店信息,这就侵犯了点评的版权。这类问题大都是经济纠纷或商业公司间的竞争。但如果你只是使用点评数据做研究分析,出行业分析报告/趋势分析,这个问题就不大。

  4.花20分钟去读下《网络安全法》

  简而言之,数据的两大雷区就是隐私数据和版权数据。

目录
相关文章
|
数据采集 存储 安全
程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?
程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?
685 0
程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?
|
数据采集 搜索推荐 机器人
程序人生 - Python爬虫要违法了吗?告诉大家:守住规则,大胆去爬
程序人生 - Python爬虫要违法了吗?告诉大家:守住规则,大胆去爬
492 0
程序人生 - Python爬虫要违法了吗?告诉大家:守住规则,大胆去爬
|
数据采集 监控 定位技术
程序人生 - 爬虫究竟是合法还是违法的?
程序人生 - 爬虫究竟是合法还是违法的?
232 0
|
9天前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
49 6
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
167 4
|
3月前
|
数据采集 存储 搜索推荐
打造个性化网页爬虫:从零开始的Python教程
【8月更文挑战第31天】在数字信息的海洋中,网页爬虫是一艘能够自动搜集网络数据的神奇船只。本文将引导你启航,用Python语言建造属于你自己的网页爬虫。我们将一起探索如何从无到有,一步步构建一个能够抓取、解析并存储网页数据的基础爬虫。文章不仅分享代码,更带你理解背后的逻辑,让你能在遇到问题时自行找到解决方案。无论你是编程新手还是有一定基础的开发者,这篇文章都会为你打开一扇通往数据世界的新窗。
|
4月前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
【7月更文挑战第31天】在网络数据的海洋中,使用Python的`requests`库构建网络爬虫就像探索未知的航船。HTTP协议指导爬虫与服务器交流,收集信息。HTTP请求包括请求行、头和体,响应则含状态行、头和体。`requests`简化了发送各种HTTP请求的过程。
82 4
|
1月前
|
数据采集 存储 数据挖掘
深入探索 Python 爬虫:高级技术与实战应用
本文介绍了Python爬虫的高级技术,涵盖并发处理、反爬虫策略(如验证码识别与模拟登录)及数据存储与处理方法。通过asyncio库实现异步爬虫,提升效率;利用tesseract和requests库应对反爬措施;借助SQLAlchemy和pandas进行数据存储与分析。实战部分展示了如何爬取电商网站的商品信息及新闻网站的文章内容。提醒读者在实际应用中需遵守法律法规。
172 66
|
7天前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
10天前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
33 4