阅读文本大概需要 6 分钟。
10月21日上午,在香港上市的金融独角兽 “51信用卡”遭遇杭州警方突击清查
据现场知情人士透露,“51信用卡”位于杭州西湖区紫霞街80号西溪谷国际商务中心的办公楼下,停满了12辆警车,包括4辆大巴车以及1辆特警大巴车
受此消息影响,51信用卡紧急停牌,停牌前报1.78港元,跌幅高达34.32%,成交8871万港元,最新总市值21.26亿港元。该股盘中股价最低至1.58港元,一度跌幅超过40%,为上市以来最低价。
一时间市场上议论纷纷,有传是因为爬虫,非法收集个人隐私信息
因为近段时间很多大数据服务公司爬虫被查,魔蝎科技,新颜科技,公信宝等。这些大数据公司基本都是为现金贷,p2p 等公司提供数据服务的。
因为公众号读者中做爬虫的可能居多,在这里也和大家提个醒,注意以下几点:
1.个人隐私千万千万不要去爬取
今年的这些行动最主要就是打击违法收集个人隐私信息的,以后遇到这种任务直接和领导说或者找公司法务,将这些案列丢给领导看!如果还要你去采集,你也要拒绝,同时可以准备找下家了,因为这种公司迟早会被查。不要说什么技术无罪,爬虫是你开发出来的,你成年人了应该懂法吧,上一个说技术无罪的,去年才从里面出来!
2. 不要把别人服务器爬崩了
说白了就是不要把别人网站爬的不能正常访问,也就是大家常说的 Dos 攻击。注意爬取速度,不要毫无限制的追求速度!当然这里说的是爬取公开的数据,非公开的数据也不能乱爬!
3. 不要乱接外包私活
也是前段时间一篇刷屏的文章。一位老哥因为接的私活,进去了。因为你不知道对方拿你开发完的东西去做什么的,他有可能拿你开发的去做了什么违法的事情,那么开发这个工具的人也是有责任的!
暂时说这么多,大家要做到心中有数,要懂得敬畏法律!
联想到最近出事的大数据金融公司,市场上很多关于 ”51信用卡“ 因为爬虫出问题的猜测也不足为奇了!然而 “51信用卡” 并不是因为爬虫出问题,后面杭州警方官方通告出来了
原来51信用卡涉嫌暴力催收,寻衅滋事等。像51信用卡这种大公司因为暴力催收被查,肯定不是一两件,必定是造成了很恶劣的影响,有多严重呢?
你的电话可能会被打爆,很多都是那种恐吓,辱骂的电话…
不仅是你自己的电话,你通讯录里面的朋友,家人和同事都会被电话催债。而且你还屏蔽不掉,只能关机!
不仅如此,你还可能被人肉追踪,催收方能准确的知道你的位置在哪!想想都觉得可怕吧!
这些暴力催收投诉信息都能在网上查到,都属于公开信息
高利贷、暴力催收、高额利息、砍头息…这些都是今年重点打击的..
所以我写了个爬虫把这些公开信息都爬下来了,总共有 4000 多条的投诉数据,这还是只是针对 51人品贷 这一个产品
下面是部分的爬虫的代码:
def crawl_news(): data_list = [] for page in range(1, 11): url = f"https://ts.21cn.com/json/merchantPostList/merchantId/3155/listType/1/pageNo/{page}/offset/28f13d759fd1e08c" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) " "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36", } data_list = [] title_set = set() try: response = requests.get(url,headers=headers, ) json_data = response.json() print(json_data) post_list = json_data.get('postList') except: print(traceback.format_exc()) pass else: for item in post_list: title = item.get('title') if title in title_set: continue else: title_set.add(title) intro = item.get('shortTopic') t = time.localtime(item.get("ctime")) publish = time.strftime("%Y-%m-%d",t) link = 'http://ts.21cn.com/tousu/show/id/' + str(item.get('id')) data_list.append({ NewsKeyEnum.TITLE: title, NewsKeyEnum.ABSTRACT: intro, NewsKeyEnum.LINK: link, NewsKeyEnum.PUBLISH: publish, }) time.sleep(0.5) return data_list
这里根据爬取的数据简单的做了个词云图,可以看到里面充斥着大量的贷款,违规,高利贷,砍头息...
最后再额外提醒一下,大家千万别再碰任何匹凸匹理财产品了,这个行业基本上完了,如果你持有匹凸匹理财产品赶紧退出来吧。另外做爬虫的朋友也没有必要人人自危,注意上面几点,对有些地方拿捏不准的可以咨询公司法务,做到心中有法,敬畏法律,不要去越过红线。