语音技术

首页 标签 语音技术
# 语音技术 #
关注
6480内容
【深度学习之美】人工“碳”索意犹尽,智能“硅”来未可知(入门系列之二)
现在的人工智能,大致就是用“硅基大脑”模拟或重现“碳基大脑的过程”。那么,在未来会不会出现“碳硅合一”的大脑或者全面超越人脑的“硅基大脑”呢?专家们的回答是“会的”。而由深度学习引领的人工智能,正在开启这样的时代。
数据集大全:25个深度学习的开放数据集
还在发愁找不到数据集训练你的模型?快来收藏一下史上最全的深度学习数据集汇总吧,有它在,一切都ok~
盘它!40篇+阿里技术经典案例,看完必收藏(上)
很多小伙伴在后台发信息,表示一天一篇技术干货看不过瘾。这里统一回复下:阿里妹去年偷偷开了个“小号”,叫做“阿里巴巴机器智能”(据说很多读算法的博士同学都在关注),平时会发AI领域的阿里经典案例,同样期待小伙伴们的关注。
深度学习训练,选择P100就对了
本文使用NVCaffe、MXNet、TensorFlow三个主流开源深度学习框架对P100和P40做了图像分类场景的卷积神经网络模型训练的性能对比,并给出了详细分析,结论是P100比P40更适合深度学习训练场景。
将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。
语音唤醒技术:small-footprint keyword spotting
目前市场上推出了各式各样的音箱、机器人、车载等语音交互产品,语音识别是交互的入口,而语音唤醒成为了踏进这一入口的第一步,如何高效、准确地对用户指令给出反应成为这一技术的最重要目标。iDST资深语音算法工程师陈梦喆将介绍语音唤醒技术的基础知识,基本技术架构以及国内外最新研究成果。
DFSMN在阿里巴巴的应用以及如何采用开源代码训练DFSMN模型
DFSMN模型是语音识别中一种先进的声学模型,语音识别中的声学模型是语音识别技术中的核心所在。具体来说,声学模型是根据输入语音进行发音可能性的识别,结合语言模型、解码器,就构成了完整的语音识别系统。本次开源的DFSMN模型,是阿里巴巴的高效工业级实现,相对于传统的LSTM、BLSTM等声学模型,该模型具备训练速度更快、识别更高效、识别准确率更高和模型大小压缩等效果。
阿里云RPA(机器人流程自动化)干货系列之二:认识RPA(下)
导读:本文是阿里云RPA(机器人流程自动化)干货系列之二,主要介绍了RPA的发展齐纳经和主要使用场景有哪些,目前国内外主流的RPA厂商以及RPA的未来在哪。 一、RPA的发展前景 根据Gartner的最新研究,2018年全球机器人流程自动化(RPA)软件的开支预计将达到6.8亿美元,同比增长57%,到2022年支出达到24亿美元。
免费试用