阿里云开放阿里巴巴三大核心AI:图像搜索、语音自学习、机器翻译

本文涉及的产品
图片翻译,图片翻译 100张
图像搜索,7款服务类型 1个月
文本翻译,文本翻译 100万字符
简介: 7月18日,阿里云正式发布了三款人工智能产品:图像搜索、智能语音自学习平台以及机器翻译,三款产品由阿里云与阿里巴巴机器智能技术实验室联合自主研发,旨在为不同行业的用户提供业界领先的人工智能解决方案,进一步推动产业AI的落地。

7月18日,阿里云正式发布了三款人工智能产品:图像搜索、智能语音自学习平台以及机器翻译,三款产品由阿里云与阿里巴巴机器智能技术实验室联合自主研发,旨在为不同行业的用户提供业界领先的人工智能解决方案,进一步推动产业AI的落地。

众所周知,计算机视觉、语音交互以及NLP是人工智能的三大核心技术,然而市面上的人工智能解决方案鱼龙混杂,此次发布的三款产品已经承受了阿里巴巴集团内部复杂业务场景的挑战,为行业客户提供了绝佳的选择。

拍立淘同款:图像搜索正式商业化

此次推出的图像搜索是以深度学习和大规模机器学习技术为核心,通过图像识别和搜索功能,实现以图搜图的智能图像搜索产品。图像搜索服务在基于图像识别技术基础上,结合不同行业应用和业务场景,帮助用户实现相同或相似图片的搜索。

与通用搜索主要依靠字节不同,图像搜索被主要定义为“以图搜图”,可支持以下两大功能:

1.商品图片搜索,通过输入商品图片,可以在商品库中准确地找到图片中商品的同款或者相似款,返回对应的商品信息;

2.通用图片搜索,通过输入具有相同元素或主体内容的图片,在海量图片库中查找相似或相同的图片。
1

据了解,该方案包含了深度学习、图像识别、支持百亿级数据的向量检索引擎等方面的最新前沿研究成果。

值得一提的是,淘宝拍立淘功能背后采用的就是此图像搜索技术,并且完美的支持了每天超过千万的UV。在拍立淘数据库中有超过 10 亿个商品,学界熟知的 ImageNet 数据库也只保存了 1500 万张照片,而拍立淘每一天上传的图片就超过了这一数字。

智能语音自学习平台:0基础训练人工智能模型

智能语音自学习平台是一键式语音智能自助优化方案,突破了语音识别优化依赖于语音供应商专家服务的局限,可以让不懂技术的人员从此也可以快速显著提升自己业务的识别准确率满足业务需求。

传统的语音识别优化依赖于语音识别AI科学家来进行,对于很多智能项目的实施而言,这种方式存在几大难题:首先,项目进展受限于集中在语音供应商的AI科学家资源;其次,后续项目效果优化周期数以周记甚至数以月记,人工智能不再智能。

阿里巴巴机器智能技术实验室语音智能高级专家周躜表示,“自学习平台的目的是向没有专业知识背景的人员提供低门槛甚至零门槛的智能语音优化平台,使得我们的客户摆脱对AI科学家的依赖。”
2

据悉,相关技术已经在智能政务、智能 导航、智能催收、智能音响、智能家居、机器人及自动驾驶等领域都有广泛应用。在今年的云栖大会武汉峰会上,基于相关技术训练的“AI收银员”在与真人店员的PK中,在嘈杂环境下准确识别了用户的语音点单,在短短49秒内点了34杯咖啡。此外,装备这一技术的自动售票机也已在上海地铁“上岗”。

机器翻译:单天翻译词超千亿

阿里云机器翻译提供多类的翻译和语言服务,具有高性能高并发服务、多模态服务等能力,可帮助国际化企业提升业务价值。

据了解,上述机器翻译平台已经沉淀了优质的跨境语料数据库,充分利用先进的机器翻译算法技术和海量的数据资源,深度打磨机器翻译质量和产品体验,并积极拓展机器翻译业务的产品形态,将各项机器翻译技术产品化,如语音翻译、会场同传、实时沟通等新产品和服务形态。

官方信息显示,机器翻译在阿里巴巴内部可以达到每天翻译出几十亿量级的产品信息,每天的线上翻译请求到达数亿次,在双11时每秒钟的翻译请求大概有几万次,每天翻译的词语个数超过2000亿,而根据Google 2016年披露的数据,其每天翻译的词语个数大概是1400多亿。

3

目前该技术已为阿里巴巴集团十几条业务线提供机器翻译和本地化支持,覆盖了Alibaba.com 、 AliExpress 、 Lazada 、钉钉、阿里云、优酷、支付宝、菜鸟、天猫精灵、高德、飞猪等众多产品。

最全面的人工智能平台

从行业大趋势来看,云计算将会是AI最好的落地平台。阿里云一直致力于推动产业AI的落地,并且拥有从底层硬件基础设施到行业解决方案的丰富人工智能产品家族,是国内最全的人工智能解决方案商。

从2015年开始,阿里云推出了一系列人工智能产品,例如基于CPU、GPU、FPGA等异构计算平台,面向开发者的机器学习PAI平台,以及语音识别、图像识别、视觉识别等130多款细分产品(印刷文字识别、人脸识别、图像识别、智能语音交互和自然语言处理等),可以服务300多个不同行业的应用场景。
4

除上述解决方案之外,阿里云的ET大脑家族也在不断完善。目前,ET大脑已经覆盖了城市、工业、零售、金融、汽车、家庭等多个场景。其中,ET工业大脑已经帮助工业制造企业创造利润数十亿,ET城市大脑支持了杭州、澳门、吉隆坡等城市进行智能化升级。

了解更多AI产品请戳:https://promotion.aliyun.com/ntms/act/aiproduct.html?spm=a2c4e.11154000.rtdmain.1.319d6c12HQSW25

相关文章
|
2天前
|
人工智能 数据处理 语音技术
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
Pipecat 是一个开源的 Python 框架,专注于构建语音和多模态对话代理,支持与多种 AI 服务集成,提供实时处理能力,适用于语音助手、企业服务等场景。
40 23
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
RealtimeSTT 是一款开源的实时语音转文本库,支持低延迟应用,具备语音活动检测、唤醒词激活等功能,适用于语音助手、实时字幕等场景。
43 18
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
|
7天前
|
机器学习/深度学习 人工智能 安全
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
112 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
|
9天前
|
存储 人工智能 自然语言处理
|
6天前
|
人工智能 自然语言处理 程序员
通义灵码2.0全新升级,AI程序员全面开放使用
通义灵码2.0来了,成为全球首个同时上线JetBrains和VSCode的AI 程序员产品!立即下载更新最新插件使用。
1268 23
|
2天前
|
人工智能 自然语言处理 测试技术
阿里云通义实验室自然语言处理方向负责人黄非:通义灵码2.0,迈入 Agentic AI
在通义灵码 2.0 发布会上,阿里云通义实验室自然语言处理方向负责人黄非分享了代码大模型的演进。过去一年来,随着大模型技术的发展,特别是智能体技术的深入应用,通义灵码也在智能体的基础上研发了针对于整个软件研发流程的不同任务的智能体,这里既包括单智能体,也包括多智能体合并框架,在这样的基础上我们研发了通义灵码2.0。
|
20天前
|
人工智能 运维 Kubernetes
阿里云容器服务AI助手2.0 - 新一代容器智能运维能力
2024年11月,阿里云容器服务团队进一步深度融合现有运维可观测体系,在场景上覆盖了K8s用户的全生命周期,正式推出升级版AI助手2.0,旨在更好地为用户使用和运维K8S保驾护航。
|
3天前
|
人工智能 Cloud Native 大数据
云+AI开启算力新时代,共建开源开放生态赴未来 | 2024龙蜥大会主论坛
本次分享的主题是云 + AI开启算力新时代,共建开源开放生态赴未来 | 2024龙蜥大会主论坛,由阿里巴巴集团合伙人、阿里云基础设施事业部总经理蒋江伟分享。
|
2天前
|
人工智能 JavaScript 前端开发
一段 JavaScript 代码,集成网站AI语音助手
根据本教程,只需通过白屏化的界面操作,即可快速构建一个专属的AI智能体。
|
3天前
|
人工智能 供应链 安全
阿里云 Confidential AI 最佳实践
本次分享的主题是阿里云 Confidential AI 最佳实践,由阿里云飞天实验室操作系统安全团队工程师张佳分享。主要分为三个部分: 1. Confidential AI 技术背景与挑战 2. Confidential AI 技术架构与应用场景 3. Confidential AI 技术实践与未来展望