天行者在《欧比旺》里的50句台词,让这家AI克隆语音的公司做了10万个交流文件

简介: 天行者在《欧比旺》里的50句台词,让这家AI克隆语音的公司做了10万个交流文件

image.png

相信只要一提到《星球大战》,不少人的第一印象就是天行者
作为一名反派,天行者这个人物形象塑造得相当成功。美国电影学会在“AFI百年百大英雄与反派”将天行者列为百年第三伟大的电影反派,仅次于《沉默的羔羊》的汉尼拔·莱克特(Hannibal Lecter)和《惊魂记》的诺曼·贝兹(Norman Bates)。
随着今年《欧比旺》的播出,绝地大师与天行者也再度引起了不少讨论。

image.png


就在最近,在为达斯·维德配音了45年之后,今年91岁的詹姆斯·厄尔·琼斯(James Earl Jones)向迪士尼表达出了想淡出这项工作的想法。

经过慎重考虑和权衡后,迪士尼决定,准备用人工智能程序来逐渐取代琼斯。
根据名利场,琼斯已经录制了自己的声音档案,以“让维德继续活着”。卢卡斯影业资深人士表示,尽管琼斯在《欧比旺》中成功扮演了一个“仁慈的教父”,但很多场景中的声音都是由人工智能完成的。
对此,不少网友表示,这是一个很好的想法。“如果演员们想要参与到未来的拍摄计划中来,那么这至少是一个体面的做法”。

image.png

50句台词=10000个语音文件交流


负责还原天行者声音的公司是一家乌克兰的初创公司Respeecher
与其他的语音复制不同的是,Respeecher可以说几乎重现了现年91岁的琼斯半生前听起来令人难忘的气势。
几十年来,保守估计琼斯至少为这个角色录了十几次电影或电视剧项目。2019年在《星球大战9:天行者崛起》拍摄结束后,琼斯就萌生出了从这个角色身上逐渐淡出的想法,但是对于迪士尼而言,如何替代琼斯便成了一个难题。
当Respeecher作为一种可能性对琼斯提及的时候,他决定签署使用他的档案语音记录的同意书,以保持天行者在大银幕上的生命力和活力。

或许,这对于一个半机械的角色来说,或许也是最好的安排

image.png此前,卢卡斯影业资深人士马修伍德、《欧比旺》导演和节目黛博拉·周和Respeecher团队一直在进行密切交流。伍德说:“像天行者这样的角色,在剧中可能有50句台词,但我们之间的文件来往几乎超过10,000个。”其中大部分是对话的变化和随后的微调。

Respeecher的首席执行官和联合创始人Alex Serdiuk表示,能够为星球大战电视剧克隆天行者的声音,他感到十分自豪,并希望通过这个项目向世界传达,乌克兰人帮助实现了那场特殊的银河系之旅。

虽然6月份《欧比旺》已经完结了,但是Respeecher的工作一直在继续,主要是在那些仍然保密的项目上。“这确实很难”,Serdiuk说,“尤其是当前乌克兰正处于一个混乱和痛苦的阶段,许多难民、平民和军队因为战争而牺牲”。

5步实现语音克隆自由

根据介绍,Respeecher主要使用档案录音人工智能算法来学习并模仿用户的声音。就结果来说,这样的语音克隆项目与原始声音听上去并没有什么太大的区别,他们甚至在一些不常用的单词、外语和一些咯咯笑的语气词上下了很大功夫。


image.png

想要复制自己的语音,整个过程只需要5步。

取得用户许可之后,Respeecher会收集用户的语音数据,这个数据可以是预先录好的,也可以是刚录制的。除此之外,用户可能还需要提供高质量的源声音录音,但这个并不是必需的,因为系统可以从源扬声器中直接进行转换。
接下来,Respeecher就会训练他们的AI系统来创建完美的语音到语音交换模型。用户只需要对着麦克风讲话,发送音频文件以转换或使用Respeecher方便的网络应用程序或API,就能获得克隆的声音了。

image.png

据官网介绍,Respeecher能够将用户的声音自由转换为60多种自然的人类(以及动物)声音,同时还会保留表演的情感。

用户还可以在官网对系统进行3天的免费测试和试用,可以选择性别、年龄和音符的高低度。试用结束后,用户可以以每个月200美元的价格解锁所有的声音项目。虽然系统主要是为以英语为母语的人服务的,但不少其他语种的用户也给予了很高的评价。


image.png纪录片制作人David Romberg表示,当他带着一个非常敏感和私人的纪录片项目联系Respeecher时,他对Respeecher的专业程度和道德意识有十分深刻的印象。Respeecher对语音克隆过程的方法是高度个人化和透明的,这也符合纪录片一贯要求的道德标准。总的来说,他对结果非常满意。

技术与艺术的难题

虽然此般克隆与保存天行者声音的做法普遍得到了网友们的认可,但这也无疑会加剧关于如何在艺术领域使用类似技术的分歧。

最近,全球最大的图像库Getty Images开始禁止用户上传和销售使用DALL-E、Midjourney和Stable Diffusion等AI工具生成的插图。

首席执行官Craig Peters表示,这项政策是出于对AI生成内容合法性的担忧以及保护客户的愿景。

“对于AI模型生成作品的版权以及图像元数据和图像包含元素的权利归属问题,令人非常担忧,”Peters说。鉴于此,出售人工智能艺术品或插图可能会使Getty Images的用户面临法律风险,“我们正积极主动地维护客户的权益”。

对于这项禁令,AI图像生成器的创建者表示,技术本身是合法的

以Stable Diffusion为例,系统需要从网络上抓取受版权保护的图像,比如个人艺术博客、新闻网站和像Getty Images这样的图片库,进行训练。这样的行为在美国是合法的,生成结果也可被“合理使用”原则所涵盖。不过需要指出的是,这项原则对于出售图片等商业活动的保护力较弱,一些艺术家的作品就被人工智能抄袭和模仿。

“世界早已充斥着图像。鉴于成本降低以及拍摄、传输和使用的简单性,数码相机使图像内容产生了指数级增长。智能手机和社交媒体的引入将这一领域提升到了全新的水平。人们拍摄和发布了数万亿张图像。我们的业务从来都不是关于创建图像的难易程度或产生的数量。它是关于连接和切入的。

而Shutterstock做得更彻底,网站还限制了对人工智能内容的搜索,但尚未推出具体政策。其他平台多出于保护客户以外的原因删除了AI图像,例如FurAffinity表示,它禁止人工智能的艺术作品,因为它们伤到了人类艺术家。

但是,考虑到AI对于日常生活的渗透程度,要完全拒绝AI或许也是不现实的。正如一位网友所说,“如果演员本人都同意了,那我看不出使用AI来克隆演员声音有什么问题。谁有权对此发表意见呢?”


image.png


相关文章
|
10月前
|
数据采集 人工智能 自然语言处理
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集,包含41.25小时3-5岁儿童普通话语音数据,覆盖中国22个省级行政区,为儿童语音识别和语言发展研究提供高质量数据支持。
1100 20
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
|
8月前
|
人工智能 文字识别 安全
趣丸千音MCP首发上线魔搭社区,多重技术引擎,解锁AI语音无限可能
近日,趣丸千音(All Voice Lab)MCP正式首发上线魔搭社区。用户只需简单文本输入,即可调用视频翻译、TTS语音合成、智能变声、人声分离、多语种配音、语音转文本、字幕擦除等多项能力。
870 32
|
7月前
|
人工智能 Android开发 iOS开发
安卓版快捷指令,加了AI语音可以一句话操作v0.2.7
Shortcuts for Android(SFA)是一款安卓自动化工具,支持语音创建快捷指令,实现听歌、导航、发消息等操作。操作简单,提升效率,快来体验语音控制的便捷!
984 0
安卓版快捷指令,加了AI语音可以一句话操作v0.2.7
|
7月前
|
人工智能 自然语言处理 语音技术
深度解析:AI语音客服系统如何重塑客户服务体验与主流解决方案探析
在数字化浪潮下,AI语音客服凭借高效、便捷、24小时在线的优势,成为企业提升服务效率、优化体验的重要工具。本文详解其核心技术、应用价值、选型要点及市场主流方案,如阿里云通义晓蜜、合力亿捷等,助力企业智能化升级。
549 1
|
8月前
|
人工智能 移动开发 开发工具
H5录音、图文视频IndexDB储存最佳实践:用AI生成语音备忘录
随心记是一个由 AI 生成的网页备忘录,它支持语音录入(可下载)、图文视频记录。最重要的是,它支持离线使用,所有数据都储存在浏览器中,不依赖后端,刷新页面数据也不会丢失!
282 0
H5录音、图文视频IndexDB储存最佳实践:用AI生成语音备忘录
|
7月前
|
存储 人工智能 Java
Springboot集成AI Springboot3 集成阿里云百炼大模型CosyVoice2 实现Ai克隆语音(未持久化存储)
本项目基于Spring Boot 3.5.3与Java 17,集成阿里云百炼大模型CosyVoice2实现音色克隆与语音合成。内容涵盖项目搭建、音色创建、音频合成、音色管理等功能,适用于希望快速掌握Spring Boot集成语音AI技术的开发者。需提前注册阿里云并获取API Key。
|
9月前
|
人工智能 搜索推荐 程序员
程序员圈爆火,狂揽2.4K星!1秒内AI语音双向对话,支持个性化发音和多端适配,颠覆你的交互想象!
RealtimeVoiceChat是一款基于现代Web技术的开源实时语音对话工具,无需下载任何软件,打开浏览器即可与AI实时语音互动。其核心亮点包括零安装体验、超低延迟、高度可定制化以及跨平台兼容等特性。通过Web Speech API实现毫秒级语音合成,支持多参数精细控制(如音色、语速、音调等),并提供隐私安全保障。项目适用于无障碍辅助、语言学习、智能客服及内容创作等多个场景。开发者可快速集成GPT/Claude等大模型,扩展为企业级应用。此外,随着Web Speech API普及率提升,该项目有望推动语音交互在教育、智能家居等领域的发展
1009 4
|
11月前
|
人工智能 JavaScript 语音技术
HarmonyOS NEXT AI基础语音服务-语音输入
本案例展示了一个基于AI语音服务的实时语音转文字功能,通过麦克风采集音频并转换为文本。主要步骤包括:申请麦克风权限、初始化语音识别引擎、设置识别回调、配置音频参数及实现UI交互(长按按钮控制录音启停)。代码使用TypeScript编写,涵盖权限管理、引擎生命周期、异常处理等核心环节,确保功能稳定运行。适用于需要实时语音转写的场景,如会议记录、语音输入等。
HarmonyOS NEXT AI基础语音服务-语音输入
|
11月前
|
人工智能 并行计算 语音技术
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象,完全离线运行,保护用户隐私。
1452 10
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
|
10月前
|
存储 人工智能 JSON
AI智能体内战终结者!A2A:谷歌开源的首个标准智能体交互协议,让AI用同一种“语言”交流
A2A是谷歌推出的首个标准化智能体交互协议,通过统一通信规范实现不同框架AI智能体的安全协作,支持多模态交互和长时任务管理,已有50多家企业加入生态。
863 0
AI智能体内战终结者!A2A:谷歌开源的首个标准智能体交互协议,让AI用同一种“语言”交流