GitHub是个敏感数据宝库 可以从中收割数据

简介:

就算不是程序员,也一定知晓GitHub的大名。如果真不熟,那可以将此文看做入门指南。


image

GitHub是采用git协议的大型云软件库。任何人都可以很容易地创建GitHub账户,不仅免费,甚至不用提供真实的电子邮件地址。

登录GitHub,你便可以自由发布代码,而世界上任何人都能看到你的代码,下载它,或者以它为蓝本形成新的分支。

GitHub模式非常强大,使得软件开发能够轻松写意地协作完成。但正如事物都有两面性,方便的同时有那么几个安全问题也就不足为奇了。

GitHub对用户提交的内容不做任何过滤。因为对上传的内容没有任何限制,人们常将之用作个人存储和备份空间。而因为被用作了个人存储和备份空间,只要找到正确的打开方式,这里简直就是敏感数据的宝库。甚至,还准备好了宝矿探测的大法宝——搜索。

与谷歌的Dorks非常相像,GitHub也有一定数量的关键字可以用于精炼搜索结果。其中一些就是“filename(文件名)”、“extension(后缀)”和“path(路径)”。

顾名思义,“文件名”和“后缀”可用于检索特定文件名或文件后缀。“路径”这个关键字就比较有意思了,可以搜索文件路径中的特定目录。比如,你可以用检索项“path:etc”来查找“etc”文件夹下的文件。

如果想玩过界,尝试一下检索项的邪恶用法,你可以将这些关键字串联起来使用,检索结果会相当有趣。比如说,使用“filename:shadow path:etc”这个复合检索项。

成就此文时,用这个检索项可以找出736条Unix系统的shadow文件。对Unix稍有涉猎的人都知道,/etc/shadow文件包含了系统中所有用户密码的哈希值。


image

  GitHub上暴露的/etc/shadow文件


image

  GitHub上能看到的Unix密码哈希值

利用John或Hashcat之类广为流传的密码破解器,根据密码复杂度的不同,这些哈希值可在数秒到几年之间被破解出来。去年10月中旬检索出来的所有/etc/shadow文件哈希中,仅仅3天时间,就被破解出了60%。

Unix系统的shadow文件还仅仅只是个开始。在GitHub上,WordPress配置文件、SFTP服务器配置文件、RSA私钥、SQL转储文件等等,应有尽有。

很多人都已经开始意识到GitHub上的数据根本就是任君采撷,而且越多的人意识到他们自己或其他人可能无意中把敏感数据放到了GitHub上,也就意味着更多的人有机会去搜一下看看,并帮助将这些敏感数据撤下来。而一些威胁情报公司早已把GitHub当成一个重要的数据收集源。

那么问题来了:这么多数据摆在你面前,你该怎么做呢?收割啊!

GitHarvester就是这样一款辅助你从GitHub上收割数据的自动化工具。它可以利用GitHub检索字符串,拉出检索结果,然后应用正则表达式匹配结果数据,从中找出敏感文件及其中特定数据。

举个例子,如果你想查找含有root用户密码哈希的shadow文件,就可以使用GitHarvester达成目的。

为什么要写这么个能让坏人更容易地染指别家系统的工具呢?原因太多了,“因为这是开始一个新编程项目的借口啊”、“只是想看看GitHub上到底有多少数据啊”等等等等。不过,主要原因,还是在于要揭露这个安全缺口。

最后,神器奉上:

https://github.com/metac0rtex/GitHarvester

本文转自d1net(转载)

相关文章
|
人工智能 分布式计算 BI
透视开源生态,OSGraph——GitHub全域数据图谱的智能洞察工具
【7月更文挑战第5天】透视开源生态,OSGraph——GitHub全域数据图谱的智能洞察工具
透视开源生态,OSGraph——GitHub全域数据图谱的智能洞察工具
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。 今天给小伙伴们分享的这份Python数据分析入门手册本着实用性的目的,着眼于整个数据分析的流程,介绍了从数据采集到可视化的大致流程。
|
算法 NoSQL Python
开山之作!Python数据与算法分析手册,登顶GitHub!
若把编写代码比作行军打仗,那么要想称霸沙场,不能仅靠手中的利刃,还需深谙兵法。 Python是一把利刃,数据结构与算法则是兵法。只有熟读兵法,才能使利刃所向披靡。只有洞彻数据结构与算法,才能真正精通Python。
|
Go 数据库 时序数据库
go使用 github.com/influxdata/influxdb/client/v2 写数据到 influxdb
go使用 github.com/influxdata/influxdb/client/v2 写数据到 influxdb
232 0
开山之作!Python数据与算法分析手册,登顶GitHub!
若把编写代码比作行军打仗,那么要想称霸沙场,不能仅靠手中的利刃,还需深谙兵法。 Python是一把利刃,数据结构与算法则是兵法。只有熟读兵法,才能使利刃所向披靡。只有洞彻数据结构与算法,才能真正精通Python
|
数据可视化
GitHub开源城市结构公交路线数据可视化
GitHub开源城市结构公交路线数据可视化
GitHub开源城市结构公交路线数据可视化
|
机器学习/深度学习 人工智能 自然语言处理
16CODEIPPROMPT:顶会ICML’23 从GitHub到AI,探索代码生成的侵权风险与缓解策略的最新进展:训练数据`有限制性许可;模型微调+动态Token过滤【网安AIGC专题11.8】
16CODEIPPROMPT:顶会ICML’23 从GitHub到AI,探索代码生成的侵权风险与缓解策略的最新进展:训练数据`有限制性许可;模型微调+动态Token过滤【网安AIGC专题11.8】
331 1
|
数据采集 JSON JavaScript
Puppeteer 实战教程 - 爬取 Github 高星项目数据
本文通过爬取 Github 高星数据项目讲解了 Puppeteer 的入门知识,包括浏览器启动、页面访问、页面数据提取、页面交互等,利用这些知识你可以用 Puppeteer 自动化你的日常工作。
736 0
|
存储 算法 搜索推荐
核爆!字节跳动算法大佬手写1000页数据算法笔记:Github已标星79k
数据结构是什么 数据结构是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。通常情况下,精心选择的数据结构可以带来更高的运行或者存储效率。数据结构往往同高效的检索算法和索引技术有关。 数据结构 算法是什么 算法是对解题方案的准确而完整地描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。

热门文章

最新文章