节省AI开发90%的时间,彭博让你获得直接可用的数据

简介: 与大多数人的想象不同,在机器学习领域里,处理数据所耗费的精力占据着最多比例。通常情况下,每购买 1 美元的数据,我们需要花费 5-7 美元来清理,才能让它用于机器学习模型的训练与推理。在这个过程中,数据科学家要耗费整个开发流程 80-90% 的时间。

如果可供使用的数据标准化且直接可用,成本和效率的提升就会让科技公司获得前所未有的优势。在这一方面,彭博是业内领先的数据服务提供商。


数据服务并不止于交易数据,今年 2 月 21 日,彭博宣布推出「另类数据」服务,其中包括 20 余种新类型数据,如基于人工智能和大数据处理得到的人流、社交媒体情绪数据,它们可以帮助投资者在瞬息万变的市场中带来先机。今天,作为人工智能大潮的一部分,数据服务正在迈向全新的阶段。


彭博为众多金融机构提供多种数据类别及服务,涵盖实时数据、参考数据、定价数据和监管数据等。近日,我们与彭博企业数据全球负责人 Gerard Francis 进行了一番交流,他向我们介绍了彭博数据业务的发展,以及他对于在投资领域应用 AI 的看法。


微信图片_20211130221840.jpg

Gerard Francis


「在金融领域里,我们是全球最大的数据供应商。」Gerard Francis 表示。彭博现在的数据提供平台中已拥有实时数据、参考数据、另类数据、衍生数据等种类的数据集,且提供数据的方式多种多样:从 API 到数据接入网站皆可以获取。用户可以在数据的基础上使用自己的程序进行处理。


彭博企业级数据业务始于 1997 年,至今已有 22 年历史了。目前,全球最大的金融机构都在依赖彭博的数据开展自己的业务。


彭博最近的方向是提供各种类型的「另类数据」:从卫星图像到博客内容中收集的情绪信息,再到 APP 的下载趋势。在彭博数据接入网站 Bloomberg Enterprise Access Point 上,我们可以找到很多不同类型的数据。彭博称,目前该网站可提供 2700 余种参考数据集,200 余种估值数据集,400 余种另类数据集以及近 600 余种监管数据集等。


比起技术人员常使用的 GitHub,使用这个平台更像是在浏览亚马逊购物网站——你可以在其上浏览各种产品,并购买其中想要的。


Gerard Francis 以北美股票参考数据为例进行了演示。数据集下载完成后可以看到是 CSV 文件,可用 Excel 直接打开,其中的数据非常干净整洁,无需进行任何其他处理就可以直接使用了。对于彭博的所有数据集,人们都可以直接下载使用。


价格之外的另类数据


Bloomberg Enterprise Access Point(BEAP)是彭博企业数据业务新近推出的一项服务,于 2018 年 9 月推出。这是一个在线数据平台,为 Bloomberg Data License 客户提供标准化的参考、定价、监管,以及另类数据集。彭博今年 2 月刚推出的「另类数据(Alternative data)」收集了很多前所未有的内容,可以帮助投资者在交易中夺取先机。


另类数据是彭博最近提出的新数据类型。在这一分类中,我们可以找到来自很多不同类型数据公司提供的内容。目前,BEAP 拥有 20 多套另类数据集,其中包括对金属库存、股票博客情绪、药品审批、消费者客流量和停车场活动、建筑许可、地缘政治风险和应用利用率的洞察。彭博计划在未来每个月都会加入更多的数据类型。


「另类数据正在变得越来越重要,」Francis 介绍道,「其中主要有两个原因。其一是我们的客户正在寻找提高 Alpha(超额收益)的方法。其二是另类数据通常难以使用。它数量巨大、笨重而难以处理,人们很难找到它的价值。但这却是机器学习和 AI 可以发挥作用的地方,通过应用这些技术帮助我们找到价值。」


彭博通过 BEAP 网站提供另类数据业务可以一站式解决金融行业数据科学家对于内容的需求,无需面对多个合同和供应商。另一方面,彭博的数据提供使用了标准化的 API,从而节省了技术人员的使用步骤。


为了保证另类数据的准确性,彭博的数据团队中有很多技术人员专注于数据处理。这家公司也在使用很多各类先进的技术来处理数据。据介绍,彭博的数据部门非常庞大,目前约有包括正式员工和供应商在内 5000 多人专注于数据。


在另类数据集中,我们可以找到一些很有意思的内容:商场的人流、停车场拥挤情况、手机 APP 的下载量,甚至某个地区出现不稳定的可能性。「我们的数据提供商之一 Apptopia 是个很有意思的公司,他们提供的数据可以告诉你所有 APP 在 Google Play 和 Apple Store 上的下载数量。」Francis 介绍道。


彭博展示的另一个例子是地缘政治风险数据,其来自 Predata 公司。数据供应商会收集很多预警和指标,对于政治风险、经济增长、社会不稳定等进行评分,从而获得一系列的数据。如果一个人正在做风险管理任务,他们可以在这里获得有关国家潜在风险的提示。


这些数据本身来自于公开信息,被各家数据公司收集后进行处理。对于分析师来说,这可以帮助理解竞争对手的业务情况,也可以在某一次投资前做好背景调查。


在另类数据领域有很多垂直领域的公司,但彭博拥有一站式的数据服务平台将大量另类数据整合在这一平台上。「对于一些数据提供商来说,他们可能会面临缺乏客户的问题。」Francis 表示,「但是加入彭博平台以后,他们的数据可以被更多投资者发现,也许很快会变成热门产品了。」


情绪数据,一秒总结全文


彭博最为大众所知的或许还是新闻报道,其提供的权威性新闻评论及观点常常会成为市场的风向标。很多短线投资者会在新闻爆出后的数秒内进行判断并发出交易指令。如果让 AI 来直接判定一条新闻是否「值得交易」,或许可以为交易员争夺一些宝贵时间。


彭博已经使用自然语言处理技术读取自家新闻社记者们撰写的新闻内容,随后使用数学算法来计算情绪数据。另外,来自推特等社交媒体的信息也「尽在掌控中」。该数据产品称为「Event Driven Feed」(事件驱动数据流)。


在这方面机器确实比人要快。彭博采用了机器学习算法,每当新闻写好之后,我们就立即能够获得这个故事的评分。随后,彭博终端就会发出推送,实时告知客户。从记者写好一篇文章再到客户获得评分,在这期间耗费的时间不到一秒钟。


情绪数据是一种经过深度学习处理过的数据,如何解决「黑箱」问题呢?彭博认为可以通过使用数据样本进行回溯测试等方式,从数学上获得稳定的结果,解决人们的疑虑。


客户们对于这种新鲜事物还在探索和适应的过程中。「一些人对这种分析的可靠性表示满意——通过回溯测试以及不断训练新的数据进行投资;」Francis 表示,「有些时候客户对此不会满意,这取决于客户的类型和他们的投资方式。我们发现很多中国客户非常乐于尝试机器学习这样的新方法,以求获得更好的回报。而另外一些国家的投资者会相对保守,或许对冲基金会接受,但基金经理不会接受。」


微信图片_20211130221926.jpg

有关英伟达的推特消息发出后,股价的波动情况。市场会在短时间内作出反应。(图片来自 Bloomberg)


在这其中最重要的是不同的交易策略,一些人走短线,一些人走长线。他们都可以通过数据获得自己所需的信息。对于那些交易速度非常快的人,比如一些对冲基金,当他们获得新闻报道的标题时,会很快将其转换为交易动作。有时在看到标题的一秒钟内,他们就会进行交易。


「目前全球 有 50 多家机构在使用 Event Driven Feed 产品,其中至少有五个客户正在使用中文推送流,」Francis 介绍道,「其中一些是中国公司。这是一个新的趋势,我们的业务重点正在从纽约和欧洲转向亚洲。」


新数据带来的收益


随着彭博新数据服务的发展,越来越多的金融机构开始将目光转向于数据平台。「很多客户会下载数据后进行测试,当找到信号之后将其转化为收益,如果行之有效,他们就会购买数据集。已经有一些客户开始购买这些数据了。」Francis 表示。


对于量化投资而言,使用最先进的技术才能带来最大收益。很多彭博数据的客户都在使用机器学习和人工智能技术来处理金融数据,以形成他们的投资策略。Gerard Francis 认为在彭博数据业务的客户中已有 80% 正在使用 AI 算法,而 20% 仍在使用传统的投资模型。


除了带来更多预期收益之外,人工智能和机器学习对于金融市场的影响方式有很多种。在风险投资领域有很多人正在使用 AI 算法进行风险回测,寻找压力区域。也有人在使用 AI 识别交易员的风险操作。人工智能会在金融领域里或许还有很多新类型的应用。


尽管机构不会直接披露通过技术获得的收益数据,但我们已可以看到人工智能进入金融行业的趋势了。在 20 年以前,很少有投资机构会去研究 AI,但随着深度学习的发展,今天我们可以看到大量金融公司正在研究人工智能。


微信图片_20211130221932.jpg

Citadel 首席人工智能官邓力。一些对冲基金为了技术甚至招揽了著名 AI 科学家,2017 年 5 月,前微软首席人工智能科学家邓力宣布加盟对冲基金巨头 Citadel。2018 年 8 月,《终极算法》一书的作者,华盛顿大学教授 Pedro Domingos 也被 DE Shaw 签下。


如果去看看一些科技基金的回报率,如 Bridgewater 和 Renaissance Capital,你会发现它们拥有惊人的回报率,这正是量化技术的功劳。


在金融数据业务的赛道上,目前最大的公司是彭博和 Refinitiv(后者是 Blackstone 和汤森路透旗下金融品牌)。随着金融机构对数据数量、质量需求的提升和成本压力的增加,越来越多的机构倾向于减少数据供应商的数量,「他们期待从一家供应商那里获得尽可能丰富的数据和服务,这样可以帮助他们提高运营的效率,并且更经济。而彭博正是他们很好的选择。」Francis 对于彭博企业数据业务的未来充满信心。


彭博来到中国已有一段时间,这家公司与各类金融机构和监管部门都保持了密切的联系,从而获得丰富的金融数据,覆盖各资产类别和市场。随着中国市场的国际化,国内的金融机构正在逐渐开始使用新技术,而彭博也乐于将其全球经验分享给中国客户。


未来,人工智能将随着数据服务的发展而变革。「我们的世界将变得高度自动化。」Gerard Francis 表示,「我认为人们会通过大量数据 API 和数据交换互相连接——所有数据中心都在云端。云服务将承载应用程序,人们在云端直接消费并传递数据。」



本文为机器之心原创,转载请联系本公众号获得授权

相关文章
|
8天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
7天前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
32 6
|
23天前
|
人工智能 小程序
一步步开发AI运动小程序】二、引入插件
随着人工智能技术的发展,阿里体育等公司推出的“乐动力”、“天天跳绳”等AI运动APP广受欢迎。本文将引导您从零开始开发一个AI运动小程序,使用“云智AI运动识别小程序插件”。内容包括新建uni-app项目、配置插件、部署模型、安装依赖包、全局初始化和调用插件对象。
|
3天前
|
人工智能 安全 测试技术
探索AI在软件开发中的应用:提升开发效率与质量
【10月更文挑战第31天】在快速发展的科技时代,人工智能(AI)已成为软件开发领域的重要组成部分。本文探讨了AI在代码生成、缺陷预测、自动化测试、性能优化和CI/CD中的应用,以及这些应用如何提升开发效率和产品质量。同时,文章也讨论了数据隐私、模型可解释性和技术更新等挑战。
|
7天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
2天前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
8天前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
9天前
|
人工智能 小程序
【一步步开发AI运动小程序】五、帧图像人体识别
随着AI技术的发展,阿里体育等公司推出的AI运动APP,如“乐动力”和“天天跳绳”,使云上运动会、线上健身等概念广受欢迎。本文将引导您从零开始开发一个AI运动小程序,使用“云智AI运动识别小程序插件”。文章分为四部分:初始化人体识别功能、调用人体识别功能、人体识别结果处理以及识别结果旋转矫正。下篇将继续介绍人体骨骼图绘制。
|
10天前
|
人工智能 小程序 vr&ar
AI运动小程序开发常见问题集锦二
截至当前,我们的AI运动识别小程序插件已迭代至第23个版本,广泛应用于健身、体育、体测、AR互动等场景。本文针对近期用户咨询,汇总了常见问题,帮助用户减少开发成本,提高效率。主要涵盖计时与计数模式的区别、综合排行榜生成方法、全屏模式适配及无开发能力用户的解决方案。
|
15天前
|
人工智能 开发者
通义灵码一周年数据报:你的 AI 编码助手身份标签是什么?
通义灵码一周年数据报,等你来开AI编码身份标签。
41 3

热门文章

最新文章

下一篇
无影云桌面