Jina AI 发布中英和英德双语 8K 向量模型,魔搭社区开源最佳实践!

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 在 Jina Embeddings 英语向量模型突破百万下载后,今天,Jina AI正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。

引  言


作为多模态人工智能技术领域的翘楚,Jina AI 的使命是通过创新的向量大模型和提示词技术,铺平通往多模态 AI 的未来之路。我们正在积极扩展多语言产品线,以满足更广泛的客户需求。



在 Jina Embeddings 英语向量模型突破百万下载后,今天,Jina AI正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。



技术亮点


8K 输入:长文本处理更得心应手

在 RAG 应用里,文本就像被切成了多个块,通过 Embedding 模型变成向量,然后存进数据库。当你搜索时,系统会把这些文本块的向量和你的搜索词比对,找到最匹配的文本。

传统模型最多只能处理 512 Token 的文本,面对更长文本时,就力不从心,尤其是预测的时候。

但 Jina Embeddings v2 能处理高达 8k 的输入,能够实现从实体、句子、段落到整个篇章的多粒度向量表示。实际应用的时候,可以将这些不同层次的向量结合起来,实现更为精准的匹配。此外,也支持按语义切割,获得更佳的搜索效果。


8K token,也就是说一整版人民日报的内容可以压缩成一个向量!


技术创新:JinaBert 架构

Jina Embeddings 系列模型均基于 Jina AI 自研的 JinaBert 架构,这是首次将 ALiBi 应用到编码器上,该架构专为长文本任务优化,直接在 Attention 层处理位置信息,让模型更准确地捕捉词语间的关系。就算是超长文本,也能轻松应对。


这一技术创新让我们的模型在处理长文本时更加强大,也为 RAG 应用带来了更多可能性。无论是解读法律文件、研究医学文献、还是文学分析,Jina Embeddings 系列模型都表现出色,任务的准确率和效率都大大提升。


双语支持:无缝跨语言交互

我们的双语模型能把中文(或德文)和英文映射到同一个向量空间。即使是不同语言,只要含义相近,它们在向量空间里就很接近。


尽管很多模型也声称支持多种语言,但由于英语在互联网上的主导地位,以及训练阶段大量使用机器翻译文本,这些模型往往对某些人群、主题或话题存在偏见,其影响会在下游任务中进一步放大。Jina AI 则专注于优化 2 种语言的向量表征,严格把关训练数据,力求把偏见降到最低,并确保性能超越那些支持多语言的大型模型。

用 Jina Embeddings,不管是在 RAG 聊天机器人里,还是给文本分类、做摘要、分析情感,都能把不同语言的文本当作同一种语言来处理,让多语言应用的构建变得无比丝滑。用中文搜中文资料,或者中文搜英文、英文搜中文,都能得到又准又顺的结果。Jina Embeddings 助力您打造和全球用户无障碍沟通的新时代!


MTEB 排行榜:性能领先

Jina Embeddings v2 系列模型在 MTEB 排行榜上,在文本分类、检索、重排、摘要等任务上均有优势。并且输出结构和 OpenAI 完全一致,是 OpenAI ada 002 模型的理想替代开源解决方案。

jina-embeddings-v2 的双语模型以 322MB 的轻巧体积(包含 1.61 亿参数),输出维度为 768,能够在普通计算机硬件上高效运行,无需依赖 GPU,极大地提升了其实用性和便捷性。


最近,在 Standford HAI 发布的 LoCo 性能测试中,Jina Embeddings 同样名列前茅。


Benchmark on Stanford HAI LoCo 2024.1根据 LLamaIndex 的最新博客文章,Jina Embeddings 被评为构建 RAG 系统的最佳向量模型。


为了在命中率和 MRR 方面实现最佳性能,OpenAI、Jina Embeddings 与 CohereRerank/bge-reranker-large reranker 的组合脱颖而出。-- LlamaIndex


LlamaIndex Benchmark



魔搭社区最佳实践


模型链接

Jina AI文本向量模型v2-base-中英双语

https://modelscope.cn/models/jinaai/jina-embeddings-v2-base-zh/summary


Jina AI文本向量模型v2-base-德英双语

https://modelscope.cn/models/jinaai/jina-embeddings-v2-base-de/summary


模型推理

Jina AI文本向量模型v2-base-中英双语

!pip install modelscope
from modelscope import AutoModel
from numpy.linalg import norm
cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-zh', trust_remote_code=True) # trust_remote_code is needed to use the encode method
embeddings = model.encode(['How is the weather today?', '今天天气怎么样?'])
print(cos_sim(embeddings[0], embeddings[1]))



同时也可以使用Jina的官方API。


API 集成

使用 Jina Embeddings 的最简单方法是直接使用 Jina AI 的 Embedding API。



通过Jina的官网 jina.ai/embeddings,您还可以体验文本相似度测试。



此外,Jina Embeddings 的 API 与 OpenAI 的 API 完全兼容,因此您可以轻松地将 Jina Embeddings 与现有应用集成。


Jina Embeddings 已经与十多个向量数据库和 RAG 系统集成,您可以根据自己的需求进行选择。



私有化部署

通过应用市场一键部署到您的企业云上,包括阿里云、AWS Sagemaker、Google Cloud Platform 等。



未来展望

Jina AI 将持续扩展我们的多语言 8k 向量模型家族,支持更多语言。同时,我们正推进这些模型与更多合作平台的集成,助力开发者们丝滑使用 Jina Embeddings,实现更丰富的应用场景。我们也将继续在多模态 AI 领域深耕细作,构建出更为强大、灵活的 AI 解决方案。


相关文章
|
11天前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
|
4天前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
140 73
|
7天前
|
人工智能 自动驾驶 云计算
【通义】AI视界|谷歌大模型被盯上!欧盟最高隐私监管机构对PaLM2模型展开调查~
本文汇总了近24小时内科技领域的五大要闻:欧盟对谷歌PaLM2模型启动隐私合规调查;甲骨文推出Zettascale云计算集群,集成大量NVIDIA GPU强化计算力;红杉资本偏好AI应用投资而非模型构建;夸克新推智能助手CueMe,支持长达2万字内容生成;沃尔沃与NVIDIA合作,未来车型将采用后者先进芯片提升自动驾驶功能。以上内容由通义自动生成。
|
9天前
|
机器学习/深度学习 人工智能 供应链
【通义】AI视界|OpenAI的“草莓”模型预计两周内上线!像人类一样思考!
本文介绍了近期科技领域的五大亮点:OpenAI即将推出的新一代AI模型“草莓”,具备高级推理能力;亚马逊测试AI技术加速有声读物生产,通过语音克隆提高效率;Kimi API新增联网搜索功能,拓宽信息来源;顺丰发布物流行业专用大语言模型“丰语”,提升工作效率;钉钉推出“AI班级群”功能,改善家校沟通体验。更多详情,请访问[通义官网]。
|
13天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
12天前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
4天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与未来医疗:革命性的技术,触手可及的健康
本文探讨了人工智能(AI)在医疗领域的应用及其潜力。从诊断辅助、个性化治疗到药物研发,AI正在改变我们理解健康和疾病的方式。同时,本文也讨论了AI面临的伦理挑战和数据隐私问题,呼吁建立相应的法律法规来保障患者权益。最后,本文对AI在未来医疗中的角色进行了展望,认为AI将继续推动医疗领域的创新和发展。
26 8
|
5天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与未来医疗:革命性的技术,重塑健康格局
本文探讨了人工智能(AI)在医疗领域的应用及其对未来健康的深远影响。通过分析AI在疾病诊断、治疗和预防方面的具体案例,揭示了这一技术如何提升医疗服务的效率和准确性,并展望了AI在未来医疗中的潜力。
22 1
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
【9月更文挑战第4天】赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
|
2天前
|
人工智能 云栖大会
AI Infra的前沿技术与应用实践 | 2024云栖大会预告
AI Infra的前沿技术与应用实践 | 2024云栖大会