使用 MongoDB 构建 AI:Devnagri 通过机器翻译帮助 13 亿人享受网络生活

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS AI 助手,专业版
简介: 为什么选择MongoDB:灵活度高,性能卓越

Himanshu Sharma (Devnagri 的首席执行官)在一次日本之行中发现,日本与自己的祖国印度有许多相似之处。虽然大多数日本人不会说英语,但他们却可以很好地使用以英语为主要语言的互联网。而这背后的关键就是翻译,确切地说,是早期的自动化机器翻译。于是,Himanshu Sharma 便萌生了一个想法:建立印度首个由人工智能 (AI) 提供支持的翻译平台,也就是 Devnagri。

“在印度,90% 的印度人(将近 13 亿人口)都不能用英语流利地沟通。我们希望填补这一空白,让那些不讲英语的人也能用自己的母语访问互联网。有超过 22 种语言在印度传播,但在互联网上,以这些语言呈现的数据却只占 0.1%。”Sharma 表示。“我们希望这些人同样能够用自己的母语获得知识和教育,并更好地融入数字化生态系统。我们还希望帮助企业和政府触达那些因为语言障碍而无法上网的人们。”

image.png

打造印度首个机器翻译平台

Sharma 及 Devnagri 团队开发了一个由 AI 提供支持的翻译平台,该平台可接收不同行业领域的多种文件格式。该平台的概念类似于谷歌翻译,但该平台并不是普通的消费者工具,平台将重点放在对印度百姓日常生活影响最大的四个关键行业:线上学习、银行、电商和媒体出版。Devnagri 为该平台提供 API 接口和即插即用的解决方案,方便用户动态地翻译各种应用程序和网站。

Sharma 解释说:“我们的平台建立在我们自有的定制转换模型的基础上,而这个模型则是基于 MarianNMT 神经机器翻译框架。我们使用文档内容语料库来训练模型,把它们拆分成句子,然后存储在 MongoDB Atlas 中。我们使用语境学习进行训练,并通过人类反馈强化学习 (RLHF) 来增强训练,进一步提高精确度。”

Sharma 继续补充道:“我们使用 Google Vertex AI 来处理我们的 MLops 管道,包括模型训练和推理。另外,我们还使用 Google Tensor Processing Units (TPU) 来托管我们的模型,这样我们就能为用户实时翻译各种内容,例如网页、PDF、文件、Web 和移动应用以及图像,等等。”

虽然基于转换程序的定制模型很好地满足了公司的需求,但现成模型近年来的发展促使 Devnagri 的工程师们踏上了寻找新解决方案的道路。他们开始评估是否可以转向 OpenAI GPT-4 和 Llama-2-7b 基础模型并使用 Devnagri 四年来积累的机器翻译数据优化这些模型。

为什么选择MongoDB:灵活度高,性能卓越

Devnagri 选择了 MongoDB 作为机器翻译模型的数据库平台。MongoDB 会存储每一个句子片段的英语原文,机器翻译的译文和经过人工验证的句子译文(如适用)。Sharma 解释道:“我们使用存储在 MongoDB 中的句子来训练我们的模型和支持实时推理。MongoDB 的文档数据模型极具灵活性,非常适合用来存储我们的机器学习模型翻译的各种结构化和非结构化内容。”

Himanshu Sharma,Devnagri
联合创始人兼首席执行官

我们还使用了 MongoDB 的可扩展型分布式架构。这样一来,我们的模型就能在云中的多个节点上并行处理读写请求,从而大幅提高训练和推理吞吐量。在 MongoDB 的帮助下,我们不仅加快了产品推向市场的速度,还优化了产品的质量。

后续行动

目前,Devnagri 的客户已覆盖印度 100 多个品牌和政府部门。Devnagri 还加入了 MongoDB AI 创新者计划。通过该计划,Devnagri 的数据科学团队能获取免费 Atlas 积分以支撑其后续机器翻译的试验和开发,并享受技术指导和了解最佳实践。

如果您想构建由 AI 提供支持的应用,最好的入门方式是在 MongoDB Atlas 上注册一个帐户。注册后,请使用 Atlas 数据库和 Atlas Vector Search创建免费的 MongoDB 实例,然后即可加载自己的数据或我们的示例数据集,并探索平台的各种功能。

相关文章
|
7月前
|
前端开发 JavaScript 开发者
JavaScript:构建动态网络的引擎
JavaScript:构建动态网络的引擎
|
8月前
|
机器学习/深度学习 人工智能 算法
AI 基础知识从 0.6 到 0.7—— 彻底拆解深度神经网络训练的五大核心步骤
本文以一个经典的PyTorch手写数字识别代码示例为引子,深入剖析了简洁代码背后隐藏的深度神经网络(DNN)训练全过程。
1253 56
|
8月前
|
人工智能 安全 网络安全
2025攻防演习回顾,AI赋能下的网络安全新格局
网络安全实战攻防演习历经9年发展,已成为检验安全体系、洞察威胁趋势的重要手段。攻击呈现实战化、体系化特征,APT、0day、勒索攻击等手段升级,AI、大数据等新技术带来新风险。攻击入口多元化、工具智能化、API成重点目标,“AI+人工”协同攻击加剧威胁。面对挑战,企业需构建纵深防御体系,从被动防御转向主动对抗。瑞数信息通过动态安全技术与AI融合,实现0day防护、漏扫干扰、勒索应急等能力,打造WAAP超融合平台,助力关键基础设施构建智能、协同、前瞻的主动防御体系。
636 1
|
7月前
|
人工智能 运维 安全
AI来了,网络安全运维还能靠“人海战术”吗?
AI来了,网络安全运维还能靠“人海战术”吗?
327 28
|
7月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
408 10
|
7月前
|
人工智能 安全 网络安全
从不确定性到确定性,“动态安全+AI”成网络安全破题密码
2025年国家网络安全宣传周以“网络安全为人民,靠人民”为主题,聚焦AI安全、个人信息保护等热点。随着AI技术滥用加剧,智能化攻击频发,瑞数信息推出“动态安全+AI”防护体系,构建“三层防护+两大闭环”,实现风险前置识别与全链路防控,助力企业应对新型网络威胁,筑牢数字时代安全防线。(238字)
427 1
|
7月前
|
人工智能 监控 数据可视化
如何破解AI推理延迟难题:构建敏捷多云算力网络
本文探讨了AI企业在突破算力瓶颈后,如何构建高效、稳定的网络架构以支撑AI产品化落地。文章分析了典型AI IT架构的四个层次——流量接入层、调度决策层、推理服务层和训练算力层,并深入解析了AI架构对网络提出的三大核心挑战:跨云互联、逻辑隔离与业务识别、网络可视化与QoS控制。最终提出了一站式网络解决方案,助力AI企业实现多云调度、业务融合承载与精细化流量管理,推动AI服务高效、稳定交付。
|
6月前
|
机器学习/深度学习 人工智能 监控
上海拔俗AI软件定制:让技术真正为你所用,拔俗网络这样做
在上海,企业正通过AI软件定制破解通用化难题。该模式以业务场景为核心,量身打造智能解决方案,涵盖场景化模型开发、模块化架构设计与数据闭环优化三大技术维度,推动技术与业务深度融合,助力企业实现高效、可持续的数字化转型。
216 0
|
8月前
|
人工智能 自动驾驶 物联网
AI 来当“交通警察”:如何优化 5G 网络资源分配?
AI 来当“交通警察”:如何优化 5G 网络资源分配?
218 9
|
7月前
|
机器学习/深度学习 算法 搜索推荐
从零开始构建图注意力网络:GAT算法原理与数值实现详解
本文详细解析了图注意力网络(GAT)的算法原理和实现过程。GAT通过引入注意力机制解决了图卷积网络(GCN)中所有邻居节点贡献相等的局限性,让模型能够自动学习不同邻居的重要性权重。
1267 0
从零开始构建图注意力网络:GAT算法原理与数值实现详解

热门文章

最新文章

推荐镜像

更多