Palantir:硅谷最神秘的独角兽

简介: 曾经在创业初期分析过Palantir这家公司,作为和大数据领域以及ToB领域的独角兽,Palantir毫无疑问是最神秘也是最成功的公司之一。这篇文章梳理了Palantir的起源,业务逻辑,以及典型的案例,如果你对技术感兴趣,或者打算进行技术创业,希望这篇文章能对你有一些启发。

Palantir的起源

Palantir曾被称为是美国最神秘的创业公司,因为它的客户中包括了美国的CIA和FBI等情报部门和反恐机构。非政府客户中包括了摩根大通、美国银行、美国证券交易委员会等金融机构。目前Palantir估值在410亿美金,预计明年IPO上市。这样一家明星公司是和大数据相关的,并且通过大数据帮助政府进行安防以及反欺诈的分析。

在2001年11月2日,安然公司宣告破产,这起美国历史上最大的倒闭事件震惊全球。同时,安然留下的30万封电子邮件,成为了当时最大规模的公开司法信息数据库。Palantir通过数据整合,对电子邮件进行自然语义分析,发现近千条邮件提及到Mariner公司,并通过关联挖掘发现安然CEO David对Mariner公司的公允价值计算虚假高估,同时通过关联计算发现David邮件中的人员,有很多人在Mariner公司担任要职。

在美国安防领域Palantir也扮演了重要的情报分析角色,此前美国政府追捕本拉登行动中,CIA正是依靠Palantir的协助,才找到了本拉登的踪迹。如今Palantir软件已经遍布美国的警务市场,在加州洛杉矶警察局,每天使用Palantir进行办公已经成为了必备的工具。当然Palantir成立的起因并不是针对警务市场,而是创始人Peter Thiel在早期创业中遇到的实际问题。

Peter Thiel是硅谷创业之父,也是Paypal的联合创始人,2002年Paypal被eBay收购,他转变成为投资人,投资了包括:Facebook,LinkedIn,Yelp,Quora等知名互联网公司。

在Palantir成立之前,Paypal曾经深受欺诈问题的困扰。很多犯罪分子通过Paypal进行洗钱。为了防止可疑的资金转移,Paypal工程师开发了一套软件对交易进行一一排查。通过匹配用户过去的交易记录,以及正在进行的资金转移来查找可疑的账户行为并进行冻结,避免了数千万美元的损失。而在Paypal被eBay收购之后,Peter Thiel想到这一反欺诈工具可以为政府提供服务。于是Peter Thiel创立了Palantir,目前为止70%员工是研发人员。这个名字也是他起的,名字来源于《指环王》,它是一个可以穿越时空看到一切的水晶球。

Palantir的业务逻辑

Palantir最早的业务逻辑来在于PayPal的反欺诈系统。这为Palantir平台奠定了基础,它可以把人工业务逻辑和强大的数据引擎完美的结合起来。Palantir不仅可以同时处理多种数据来源,并且可以允许用户通过多种方式快速浏览,查找和分析自己想要的信息。当然,Palantir对各种安全问题高度敏感。

在我看来,Palantir是基于知识图谱技术,提供了数据集成、搜索、知识管理、协作、发现五大板块的大数据分析平台。知识图谱是个非常有用的技术,它可以将数据转化为信息,进一步处理加工为知识,最后通过更高级别的综合和预测能力转化为智慧,对知识进行具体的应用。
2.png

基于知识图谱,Palantir提供了以下的五大支柱能力,我来一一给你讲解下:

数据集成:

Palantir提供了许多方法来从不同的数据源中获取数据,并且可以基于语义网(Ontology)来创建实体

搜索:

Palantir为分析师提供了多种搜索机制,使他们能够找到匹配的数据,并且挖掘出数据间的关系,从而发挥数据的价值。最令人印象深刻的是它的环形检索(Search Around),其中最常用最重要的是快速### 搜索(Quick Search)
当然这一切的基础是需要一个很好的本体。Palantir提供了生成复杂的搜索查询(布尔逻辑,变音位,模糊值)的能力,同时无需了解复杂的查询语法。

知识管理:

Palantir的所有数据都可以根据其授权级别赋权给其他用户。

协作:

Palantir允许分析师在私人调查中开始调查,也可以将调查结果共享给其他用户。同样,分析师可以选择接受其他用户的更新,以便进一步开展工作。

发现:

反欺诈是许多企业面临的共性需求,在Palantir中通过寻找趋势的算法来进行聚类预测。

这五大支柱都是Palantir的技术支柱,在实际应用过程中,需求往往是个性化的,包括案件的内容以及破案的逻辑,因此需要人类智慧和大数据产品的结合。我们可以用这个流程图代表大数据运作的基本原理。首先需要有数据,这里就需要有数据采集、清洗、集成。然后是建模,建模是高度依赖于任务的,因此也是依赖于人的经验总结,比如犯罪分子可能存在的行为特征。最后指导任务的完成,这个过程,当我们把各种数据集成,建立各种模型后,就可以自动化的执行任务。当然我们知道,需求非常多样化,因此也需要多样化的任务处理模型,来处理不同的任务。而且任务和任务之间往往是有关联的。Palantir是个非常庞大复杂的系统,但是基本原理也离不开下面的流程图。这个是拆分成最小任务单元的流程图。
图片alt

Palantir是如何使用知识图谱进行破案的?

知识图谱技术可以让我们从完成从数据端到智慧端的过程,具体实现途径如下图所示。
在数据端,一般数据量巨大,我们采用分布式数据采集系统,可以支持文档、网页、视频、传感器等采集的数据,先进行清洗存储,输出为基础数据。
在信息端,我们对数据进行语义处理,比如特征提取、事件识别、文本挖掘等,然后通过实体识别、角色识别、关系识别输出语义结构化数据。
在知识端,我们对知识进行建模,需要对本体进行建模、映射、存储,构建知识体系,输出知识库。
在智慧端,我们需要业务规则,包括进行图分析等计算,最后转化为人机可视化的交互方式方便用户进行可视化关联分析、问答、语义搜索等。

我们以Palantir介入安然破产的数据分析案例为例。首先Palantir面临的问题是:安然公司破产,指控其CEO(David Delaney)与Mariner公司发生内幕交易,缺乏证据。
在数据层:司法将安然内部的30万封邮件进行了公开
在信息层:Palantir需要对文本进行分类,实体抽取,事件抽取,并对文本中的角色、关系进行识别。发现邮件中指导的人员都是在哪个公司担任什么样的角色。并且对邮件中提到的内容及事件进行识别。
在知识层,Palantir可以发现有近千条提及Mariner公司的邮件中,David发出的3封邮件对其公允价值进行计算。并通过进一步的关联挖掘,得到相应的知识:
1)David对Mariner公司的公允价值计算虚假高估
2)邮件发出的时间 vs. David出售Mariner公司股票时间同轴匹配
3)全部邮件中的人名抽取,关联分析David关联人员
在智慧层,综合以上的知识,可以得出:
1)David 发出虚估Mariner公司公允价值的邮件时间节点与其出售该公司股票的时间吻合
2)David邮件关联人员中,有多人在Mariner公司重要部门担任要职

做别人不擅长的,并提供更高的价值

现如今Palanti公司总共拥有两大产品线:Palantir Gotham和Palantir Metropolis,分别应用于国防安全与金融领域。我们能看出来,这两个产品的逻辑都是大数据VS反欺诈。

首先数据量巨大,整个美国国土的数据,以及线上互联网的公开数据,以及各个渠道可以收集上来的数据都是Palantir的数据源。这样的数据体量基本上是其他机构没法获得,也无法处理的。另外Palantir让人们记住的还是他能做别人做不来的业务,比如分析出安然CEO的交易内部,本拉登的踪迹,包括给各大银行提供用户反欺诈行为分析。

当然这个过程也不是一蹴而就的,Palantir成立于2004年,到了到了2008 年,也就是公司成立四年后,美国情报机构依然是 Palantir 的唯一客户。但情报机构的使用,最终成为了 Palantir 进入其它市场的“门票”。卖给政府要花的时间更多,整个流程很长,但是一旦成功切入,你就获得了非常有价值的客户。而得到 CIA的背书,大银行就会非常愿意与Palantir合作。

这个漫长的过程,就好比Palantir做大数据收集和分析一样,不仅仅是个技术活,还是个长期的工作。在长期积累这件事上,Palantir就已经打败了其他竞争对手,提供了其他公司无法提供的价值,因此也在市场上具有更高的定价权。使用Palantir软件的费用在500万到1000万美金不等,需要预付20%,在使用满意后再付尾款。并且Palantir是一家没有市场、没有公关没有销售团队的公司。这对现在竞争激烈的市场来说,是非常神奇和难得的。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
24天前
|
存储 人工智能 运维
UModel 数据治理:运维世界模型构建实践
阿里云推出 UModel 统一建模框架,将实体、关系、数据、知识、行动融为一体,为大模型提供可推理、可交互的运维世界模型,推动可观测从‘被动响应’迈向‘主动优化’的新阶段。
259 21
|
3月前
|
XML 存储 算法
5大实战技巧:优化RAG召回质量,避免“召回不足”灾难!
本文分享了团队在金融风控系统开发中优化RAG系统的实战经验,涵盖文档处理、召回策略与生成优化三大环节,解决召回不准、数据噪声等问题,助力构建高效精准的RAG系统。
519 1
|
自然语言处理 JavaScript 前端开发
使用Pagefind为VitePress文档添加离线全文搜索能力
前言 VitePress 相信大家都或多或少听说过或者用过了 默认 UI相比 VuePress2.x 好看,启动速度也快(由Vite驱动,当然VuePress也可以切换构建引擎至Vite) 做内容定制也相对简单,笔者的很多静态文档站点(使用VuePress1.x),文章内容多的时候启动非常的慢,于是就从之前的 VuePress 迁移到了 VitePress,并做了一个博客主题 @sugarat/theme => 之前也有过介绍一个简约风的VitePress博客主题 但是 VitePress 官方目前还没有内置开箱即用的搜索能力(相关PR还在施工中)
1010 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
AI大模型进阶系列(01)看懂AI大模型的主流技术 | AI对普通人的本质影响是什么
本文分享了作者在AI领域的创作心得与技术见解,涵盖从获奖经历到大模型核心技术的深入解析。内容包括大模型推理过程、LLM类型、prompt工程参数配置及最佳实践,以及RAG技术和模型微调的对比分析。同时探讨了AI对社会和个人的影响,特别是在deepseek出现后带来的技术革新与应用前景。适合希望了解AI大模型技术及其实际应用的读者学习参考。
|
移动开发 Java API
大疆无人机对接
本文介绍了大疆无人机对接第三方云平台的方案,包括设备对接和CloudAPI对接两种方式,重点讨论了CloudAPI对接。CloudAPI对接方案通过DJI Pilot 2或大疆机场将无人机与第三方云平台连接,实现低门槛接入,无需重复开发APP。方案优势在于让开发者更专注于业务开发,而非无人机功能适配。文章详细阐述了对接流程,包括环境准备、申请APPKey、对接流程、直播功能及获取无人机实时数据等内容,并提供了丰富的接口说明和技术支持资源。
7982 4
大疆无人机对接
|
10月前
|
机器学习/深度学习 监控 API
本地部署DeepSeek模型技术指南
DeepSeek模型是一种先进的深度学习模型,广泛应用于自然语言处理等领域。本文详细指导如何在本地部署DeepSeek模型,涵盖环境准备(硬件和软件要求、依赖库安装)、模型下载与配置、部署(创建Flask应用、运行API)、优化(GPU加速、模型量化、ONNX Runtime)及监控维护等内容。通过本文,您将能够在本地成功部署并运行DeepSeek模型,确保其高效稳定。
|
Kubernetes 架构师 Java
史上最全对照表:大厂P6/P7/P8 职业技能 薪资水平 成长路线
40岁老架构师尼恩,专注于帮助读者提升技术能力和职业发展。其读者群中,多位成员成功获得知名互联网企业的面试机会。尼恩不仅提供系统化的面试准备指导,还特别针对谈薪酬环节给予专业建议,助力求职者在与HR谈判时更加自信。此外,尼恩还分享了阿里巴巴的职级体系,作为行业内广泛认可的标准,帮助读者更好地理解各职级的要求和发展路径。通过尼恩的技术圣经系列PDF,如《尼恩Java面试宝典》等,读者可以进一步提升自身技术实力,应对职场挑战。关注“技术自由圈”公众号,获取更多资源。
|
机器学习/深度学习 分布式计算 大数据