LinkedIn在利用大型语言模型服务十亿用户中的收获

简介: LinkedIn在利用大型语言模型服务十亿用户中的收获

本文来自 企业网D1net公众号

社交媒体巨头LinkedIn转向GenAI,以提升其会员服务,本文介绍了其工程师在利用LLMs取得业务成果方面所学到的一些内部经验。


LinkedIn 在全球拥有超过10亿用户,不断挑战当今企业技术的极限。很少有公司能够像LinkedIn那样运营,或者拥有类似的大量数据资源。


对这个专注于商业和就业的社交媒体平台来说,将合格的候选人与潜在雇主连接起来,帮助填补职位空缺是其核心业务。同样重要的是确保平台上的帖子反馈与消费者的需求相关。在LinkedIn的规模下,这些匹配过程一直依赖于技术。


在2023年夏天,当GenAI的兴趣首次高涨时,LinkedIn开始考虑是否利用大型语言模型(LLMs)来匹配候选人与雇主,以及使信息流更加有用会更好。


因此,这家社交媒体巨头开启了一段GenAI的旅程,并现在正在报告其利用Microsoft的Azure OpenAI服务的经验成果。各行各业的CIOs都可以从LinkedIn在此过程中学到的一两点经验。


起伏跌宕



正如大多数CIO所经历的那样,采用新兴技术伴随着试验和挫折。LinkedIn的情况也不例外,据该公司的首席软件工程师及技术负责人Juan Bottaro所说,其走向LLM洞察的道路一点也不平坦。


Bottaro表示,最初的成果“感觉不够完善”,“连接的点还不够多。”


围绕GenAI的首波炒作并没有帮助。


“LLM是新事物,感觉它能解决所有问题,”Bottaro说。“我们开始时对LLM能做什么并没有一个非常清晰的概念。”


例如,早期版本的改进型职位匹配工作可以说是相当的,用一个不太恰当的词来说,粗鲁。或者至少过于直白。


“点击‘评估我是否适合这份工作’后得到‘你完全不适合’并不实用,”Bottaro说。“我们希望[回应]既事实准确,同时也要有同理心。有些会员可能正在考虑转行到他们目前并不十分适合的领域,需要帮助了解差距和下一步该怎么做。”


因此,LinkedIn初步学到的一个重要经验是调整LLM以满足观众的期望——并帮助LLM理解如何以一种或许不是人类,但至少是人性化的方式来回应。


速度问题



尽管LinkedIn拥有超过十亿会员,依靠LinkedIn的LLM工作的大部分求职功能最初是针对高级会员的,这是一个相对较小的群体。(LinkedIn拒绝透露其拥有多少高级会员。)


在如此大的规模运作时,速度是至关重要的,特别是在与相关职位匹配候选人这样细致的事务上。这里,人们认为LLM会有所帮助,因为LLM的一个经常被提及的优点是其速度,使它们能够迅速完成复杂的步骤。但Bottaro表示,LinkedIn的部署并非如此。


“我不会说LLM很快。我不认为速度是一个优势,”他说。


速度可以有多种定义。虽然在操作上LLM可能没有像希望的那样快,但Bottaro表示整体部署过程的加速令人震惊。“这项新技术的超能力在于你可以非常快速地创建原型,大约在两到三个月之间。在这项技术出现之前,这是不可能的,”他说。


当被问及如果没有LLM,项目的各个方面需要多久时,Bottaro表示有些可能根本无法完成,而其他元素“可能需要几年时间。”


作为一个例子,Bottaro提到了旨在理解意图的系统部分。没有LLM,这可能需要两到三个月,但LLM在“不到一周”的时间内就掌握了它。


成本考虑



Bottaro称之为“障碍”的一个方面是成本。同样,成本在项目的不同阶段意味着不同的东西,正如LinkedIn的经验所示。


“我们用于开发的金额微不足道,”Bottaro说。但当涉及到向LinkedIn的客户提供数据时,成本激增。


“即便只是针对几百万会员,”Bottaro说,这可能暗示了高级会员的数量,价格也飙升了。这是因为LLM的定价——至少是LinkedIn与Microsoft(其LLM提供商及母公司)达成的许可协议——是基于使用量的,具体来说是输入和输出令牌的使用量。


一位AI供应商的首席执行官Tarun Thummala在一篇与此项目无关的LinkedIn帖子中解释说,LLM的输入和输出令牌大约相当于0.75个单词。LLM供应商通常按成千上万或成百万卖令牌。例如,LinkedIn使用的Azure OpenAI在美国东部地区收费标准为每100万个8K GPT-4输入令牌30美元,每100万个8K GPT-4输出令牌60美元。


评估挑战



LinkedIn为其项目设定的另一个功能目标是自动评估。LLM在准确性、相关性、安全性和其他关注点方面的评估一直是个挑战。领先的组织和LLM制造商一直在尝试自动化一些工作,但据LinkedIn称,这种能力“仍然是在进行中”。


没有自动化评估,LinkedIn报告称“工程师们只能靠目测结果,并在有限的样本集上进行测试,且通常会有超过1天的延迟才能知道指标。”


该公司正在构建基于模型的评估器,以帮助估计关键的LLM指标,如整体质量得分、幻觉率、连贯性和负责任的AI违规情况。这样做将能够加快实验的速度,公司的工程师说,尽管LinkedIn的工程师在幻觉检测方面取得了一些成功,但他们还没有完成该领域的工作。


数据质量



LinkedIn在其职位匹配努力中遇到的部分挑战归结为双方的数据质量问题:雇主和潜在雇员。


LLM只能使用提供给它的数据,有时候职位发布并不精确或全面地说明雇主所寻求的技能。另一方面,一些求职者发布的简历表述不佳,无法有效反映他们在解决问题等方面的丰富经验。


在这方面,Bottaro看到了LLM帮助雇主和潜在雇员的潜力。通过改善雇主和LinkedIn用户的书写,双方都能受益,因为公司的职位匹配LLM在数据输入质量更高时能够更有效地工作。


用户体验



在处理如此庞大的会员基础时,准确性和相关性指标可能“给人一种虚假的安慰感,”Bottaro说。例如,如果LLM“90%的时间都做得对,这意味着十分之一的人会有糟糕的体验,”他说。


使这种部署更加困难的是,提供有用、有帮助且准确答案所涉及的极端细微差别和判断。


“你如何定义什么是好的,什么是坏的?我们花了很多时间与语言学家一起制定关于如何提供全面代表性的指导。我们也做了很多用户研究,”Bottaro说。“你如何训练人们撰写正确的回应?你如何定义任务,规定回应应该是什么样的?产品可能试图建设性或有帮助。它不试图假设太多,因为那是幻觉开始的地方。我们对回应的一致性感到非常自豪。”


实时运营



LinkedIn庞大的规模为职位匹配带来了另一个挑战。在拥有十亿会员的情况下,一个职位广告在发布几分钟内可能会收到数百甚至数千个应聘回应。如果看到已经有数百人申请,许多求职者可能就不会再费心申请了。这就要求LLM非常迅速地找到匹配的会员,在资质较低的申请者提交材料之前做出反应。之后,会员是否看到通知并及时做出反应仍然是一个问题。


在雇主方面,挑战在于找到最合适的应聘者——不一定是反应最快的人。一些公司不愿公布薪资范围,这进一步复杂化了双方的努力,因为最合格的应聘者可能对职位的薪酬不感兴趣。这是一个LLM无法解决的问题。


API和RAG



LinkedIn庞大的数据库包含了关于个人、雇主、技能和课程的许多独特信息,但其LLM尚未接受过这些数据的培训。因此,根据LinkedIn工程师的说法,它们目前无法使用这些资产进行任何推理或生成响应的活动,因为这些资产是如何存储和提供的。


在这里,检索增强生成(RAG)是一个典型的解决方案。通过建立内部API的管道,企业可以用额外的上下文“增强”LLM提示,以更好地指导和限制LLM的响应。LinkedIn的大部分数据通过RPC API公开,公司的工程师说这“方便人类以编程方式调用”,但“对LLM并不友好”。


为了解决这个问题,LinkedIn的工程师围绕其API“封装了技能”,给它们提供了一个“对LLM友好的API功能描述以及何时使用它”,以及配置细节、输入和输出架构以及将每个API的LLM版本映射到其底层(实际)RPC版本所需的所有逻辑。


LinkedIn的工程师在一份声明中写道:“像这样的技能使LLM能够执行与我们产品相关的各种操作,如查看个人资料、搜索文章/人员/职位/公司,甚至查询内部分析系统。”他们还提到,“同样的技术也用于调用非LinkedIn的API,如Bing搜索和新闻。”这种方法不仅提高了LLM的功能性,还增强了其与现有技术基础设施的整合能力,使得LLM能够更广泛地应用于企业的各个方面。


相关文章
|
3月前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
97 6
|
6月前
|
机器学习/深度学习 编译器 PyTorch
自研分布式训练框架EPL问题之吸引社区参与共建如何解决
自研分布式训练框架EPL问题之吸引社区参与共建如何解决
|
7月前
|
人工智能 算法
等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了
【7月更文挑战第13天】华为诺亚方舟实验室推出MindStar,一种增强LLM推理能力的搜索框架。MindStar通过PRM奖励模型和Beam/Levin Search策略选择最佳推理路径,提升开源模型如LLaMA-2-13B、Mistral-7B的性能,与GPT-3.5等闭源模型媲美,但成本更低。尽管推理成本高和需预训练PRM,MindStar为LLM推理研究开辟新途径。[论文链接](https://arxiv.org/pdf/2405.16265v4)
111 9
|
8月前
|
编解码 人工智能 测试技术
ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力
【6月更文挑战第30天】ShareGPT4Video`团队推出百万视频-字幕数据集,强化多模态模型的视频理解和生成。包括40K视频的`ShareGPT4Video`数据集、`ShareCaptioner-Video`模型和8B参数的`ShareGPT4Video-8B`模型,后者在视频基准测试中取得最佳效果。差异化字幕生成策略解决了传统方法的局限。尽管取得突破,但数据规模和模型泛化仍是未来挑战。[论文链接](https://arxiv.org/abs/2406.04325v1)
94 1
|
9月前
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。
69 3
|
3月前
|
人工智能 自然语言处理 数据挖掘
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT背后的技术和多模态异构数据处理的未来展望——我与一位资深工程师的走心探讨
上周,我和一位从业三十余年的工程师聊到ChatGPT。 作为一名人工智能领域研究者,我也一直对对话式大型语言模型非常感兴趣,在讨论中,我向他解释这个技术时,他瞬间被其中惊人之处所吸引🙌,我们深入探讨了ChatGPT的关键技术,他对我所说的内容产生了浓厚的兴趣,我们开始交流并分享了各自的经验。我发现,与这位资深工程师的讨论不仅加深了我的理解,也让我更加了解了这项技术的前沿发展🌱。 后续我也下面我将分享一些我在与工程师的讨论中和自己学习中所了解的ChatGPT的关键技术,希望对您有所帮助。
|
搜索推荐 安全 Linux
Visual Studio Code 提高效率的快捷方式(下)
Visual Studio Code 是目前最流行、最常用的代码编辑器之一,它是开源的并且可以免费使用。它还提供对多种语言和框架的支持。 ​ 注意,这些 Visual Studio Code 快捷方式取自于 VS Code 官方文档。如果某些快捷方式不起作用,可能是由于编辑器或文件格式中的快捷方式发生了变化,或者安装的扩展影响了该快捷方式。
964 0
|
算法 搜索推荐
【直播预告】融合复杂目标且支持实时调控的重排模型在淘宝流式推荐场景的应用
【直播预告】融合复杂目标且支持实时调控的重排模型在淘宝流式推荐场景的应用
330 1
我真想和偷卖源码的人打一架
1,系统的演示;2,系统的核心代码;3,系统源码获取
146 0
我真想和偷卖源码的人打一架