目标:了解并掌握大模型多模态技术的实际应用,学习如何构建基于多模态(如AI拍立得)的实际场景
在开始之前,咱们给大家分享几个近期个人认为还是蛮有趣的多模态应用,它们在相机场景中的应用特别有意思。
以下几个场景(这里会在直播的过程中进行演示,如果仅看到文档可以去回顾视频回放)
第一个是 拍立淘,这是淘宝推出的功能,只需要拍个照,系统就能识别商品并直接带你进入购物页面。购物变得更简单,省去了很多搜索的步骤,直接就能买到你想要的东西。
第二个是 探一下,由支付宝推出的图像搜索引擎。你拍个照片,AI马上帮你识别并进行搜索,不管是商品还是信息,瞬间就能找到相关内容,搜索变得更直观、更高效。
最后是 诗歌相机,这款应用让你拍照就能生成一首诗,甚至还能打印出来。它把传统的诗意和现代的技术完美结合,真的很有创意,关键它还做成了硬件的形式,给人们不一样的体验。
拍立淘 |
探一下 |
诗歌相机 |
阿里云百炼大模型平台专注给企业侧提供各种原子级别能力,我们在前面几节课中从整体平台到文本知识库。今天,我们就带着大家一起来深入探索一下阿里云百炼上的多模态能力。
阿里云百炼大模型多模态能力解析
图像理解
我们来到阿里云百炼控制台,进入到模型广场,选择图片理解,选中“通义千问VL-Max”模型进行立即在线体验。
- 图文理解与生成:能够基于图像内容生成文本描述,或者根据文本生成相关的图像(这个可以参考Stable Diffusion / Flux这些能力模型,都可以支持原子级别的调用)。
- 视觉问答:用户可以向模型提问,模型能够根据给定的图像提供准确的答案。
- 多模态推理:模型能够跨越不同模态(如图像、文本)的数据进行推理与分析,从而支持更为复杂的应用场景。
也可以在这里快速测试:
示例数据图:
|
|
|
测试Prompt:
根据上传的服装图片,提取以下特点并生成引人瞩目的卖点,包含下面的一些特点可以参考,你的风格是淘宝卖家风格,能够使用第一人称的方式向用户去推销: 服装的款式(如连衣裙、T恤、裤子、外套等) 服装的面料(如棉、羊毛、丝绸、皮革等) 服装的颜色和图案(如单色、条纹、印花、渐变等) 服装的设计细节(如刺绣、褶皱、荷叶边、拉链等) 服装的适用场合(如日常穿搭、晚宴、办公、户外运动等) 服装的时尚趋势(如流行元素、潮流款式等) 服装的搭配建议(如与配饰或鞋子搭配的效果) 服装的舒适性、功能性或独特的卖点(如透气、弹性、防水等)
测试效果:
- 图像生成能力
这里就不过多介绍了,在第一节课中我们也有体验过相关的生成能力,同样的它也可以支持API级别调用,可以直接融合在我们企业的创意应用、品牌广告、风格文化、商品图定制等等场景中。
另外还有个阿里云上很炸裂的产品,十分建议大家去关注一下:
视觉开放平台,可以作为阿里云百炼大模型平台的原子能力去处理多模态领域数据内容:https://vision.aliyun.com/
适用于城市大脑、安防、数字营销、泛金融身份认证、互联网娱乐、手机应用等行业,企业和开发商(含开发者)可以选择相应能力自行封装解决方案或者是产品服务。
阿里云视觉智能开放平台将围绕多个视觉领域,例如:通用、图像、视频以及目标识别等类目,持续为您提供多种视觉AI能力。具体方向包括:创新专区、人脸人体、文字识别、商品理解、内容审核、图像识别、图像生产、分割抠图、视觉搜索、图像分析处理、目标检测、视频理解、视频生产、视频分割共14个类目,上百项AI能力供您使用。
平台将持续更新迭代更多视觉AI能力,所有能力均通过API方式提供,为您提供通用且标准化的接入方式,方便您快速接入及使用。
能力实在是非常多,覆盖的场景也非常广,大家可以仔细研究一下。
在场景广场里面,我们可以看到有非常多爆款的热门场景:
我们可以打开一个“人像特效相机”看下面的具体工作流情况,而这里的所有能力,都可以结合阿里云百炼大模型平台作为API原子能力去调用,结合多模态的能力,让场景更具备想象力空间。
图像知识库
通过多模态的能力,对图片信息进行检索理解。这里面我们也用到第二天共学拓展的知识点,图像类的多模态数据。
效果测试:
上传一张图片,去我们的图像数据库里面找到相关的信息,然后识别信息后,结合内容进行回复。
拓展:如何构建图片索引?
建图片索引需两步:
- 新建结构化数据表时,需要将图片索引所在列的字段类型设置为link。
- 创建结构化知识库时,对于需要建立图片索引的link类型字段,在旁边的下拉列表中选择图片。
如何开启多模态沉浸式交互呢?
- 语音对话音频交互
- 视频交互(可以在右上角点击“体验”按钮,可以直接在手机端进行多模态交互体验,更加方便)
音频合成
语音合成,又称文本转语音(Text-to-Speech,TTS),是将文本转换为自然语音的技术。该技术基于机器学习算法,通过学习大量语音样本,掌握语言的韵律、语调和发音规则,从而在接收到文本输入时生成真人般自然的语音内容。
我们选择自定义文字试听,输入我们的提示词,看看效果:
在通往AGI的道路上,阿里云百炼大模型平台一直相伴左右。
(有个小细节,它在生成音频的时候,是支持流式输出的,这个是非常强大的存在!!!)
音频理解
语音识别(Automatic Speech Recognition,ASR)可以将音视频中包含的人类声音转换为文本。适用于会议记录、客户服务、媒体制作、市场研究及多样化的实时交互场景,能显著提升工作效率、服务质量与人机交互体验。
语音识别也称为语音转写、语音转录、语音转文字等。
应用场景包含:
- 会议、课堂录音记录:将录音文件转成文字,方便后期快速进行信息检索、分析和整理重点内容。
- 客服电话分析:自动记录并分析客户电话,快速理解客户需求,自动分类服务请求,甚至识别客户情绪,从而提升服务质量与效率。
- 字幕生成:帮助媒体制作与后期编辑人员识别音视频材料并生成对应的字幕,加速后期制作的流程。
- 市场研究与数据分析:将市场调研中收集到的消费者访谈、焦点小组讨论等录音数据,通过识别模型进行分析,提取消费者意见、偏好等信息,为企业决策提供支持。
我们可以把上面的这段生成的音频给他,看他识别的效果如何。
基本稳定,如果不太准确,可以使用领域词进行微调修正。
视频生成
大家可以直接在通义万相平台里面去体验:https://tongyi.aliyun.com/wanxiang/
生成效果:
Prompt:视频展示了两名身着厚重宇航服的宇航员在月球表面缓缓漫步,他们的每一步都在灰色的月尘上留下深深的足迹。突然,一艘闪耀着光芒的飞船从遥远的宇宙背景中出现,精准地降落在他们附近。宇航员转身走向飞船,随后被接走,消失在黑暗的星空中。整个过程充满了科幻色彩和探索未知的勇气。 |
Prompt:猫,演奏 |
Prompt:视频展示了全副武装的滑雪装备的企鹅在雪地上滑行的趣味场景。一只穿着迷你滑雪服,头戴护目镜,脚踏滑雪板的企鹅,在白雪覆盖的地面上快速滑动,动作灵活而可爱。背景是一片广阔的雪景,阳光照耀下,雪地闪烁着光芒,营造出一种冬日户外活动的欢乐气氛。整个视频充满了活力和乐趣,让人感受到冰雪运动的魅力。 |
如果你需要将其结合到自己的产品和业务中,可以使用阿里云百炼大模型平台提供的API能力。
我们也可以使用在第一节课程中跟大家分享的使用curl的方式去调用API接口,这样就可以在咱们电脑本地去生成啦。
当然,你也可以使用Python、Java、Node.js等编程语言能力进行调用,集成到你的项目里面,当然如果你没有任何代码经验,也可以在你的电脑中打开“终端”(mac用户叫法 command + 空格)或命令提示符(windows用户叫法,开始->运行->),输入下面的内容也可以进行本地调用:
(其中$DASHSCOPE_API_KEY 需要更换成你自己的信息)
curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \ -H 'X-DashScope-Async: enable' \ -H "Authorization: Bearer $DASHSCOPE_API_KEY" \ -H 'Content-Type: application/json' \ -d '{ "model": "wanx2.1-t2v-turbo", "input": { "prompt": "一只小猫在月光下奔跑" }, "parameters": { "size": "1280*720" } }'
因为生成过程比较缓慢,成功后会返回一个查询的task_id信息。
{"output": {"task_status": "PENDING","task_id": "0385dc79-5ff8-4d82-bcb6-xxxxxx"}, "request_id": "4909100c-7b5a-9f92-bfe5-xxxxxx"}
我们可以通过请求这个task_id去查询生成结果信息:
需要将86ecf553-d340-4e21-xxxxxxxxx替换为真实的task_id。
curl -X GET \ --header "Authorization: Bearer $DASHSCOPE_API_KEY" \ https://dashscope.aliyuncs.com/api/v1/tasks/86ecf553-d340-4e21-xxxxxxxxx
视频理解
借助视频处理、视频理解、大语言模型的串联能力,实现对视频里指定要点的理解和提取,并按要求生成指定类型的文案、提取标签、洞察分析。
输入一段视频,可集成文本描述和视频内容,使模型能够理解并生成基于文本的摘要、描述或对视频内容的提取、分析。在视觉语言分析阶段,可通过自定义的prompt让大模型重点关注和提取视频中的某些特征,或者按要求做视频筛选;在文本处理阶段,则可通过自由定义的 prompt,执行基于上一阶段的抽取、写作、分析等任务,产出视频标签、视频分析总结,或指定文体、风格的各类文章等。
测试视频数据:视频链接
我们上传视频后,可以根据不同的场景去生成文案描述,我们可以使用刚才通义万相里面生成的视频,看看是什么效果!
可以看到针对这个视频,多模态模型应用理解后生成的文案效果。
可点击此原视频链接观看 |
模型生成效果 |
Case1 :诗歌相机
1.1 核心技术
诗歌相机的核心搭载了树莓派,这款只有信用卡大小的微型计算机,通过强大的处理能力实现了图像采集和对阿里云百炼大模型平台的多模态工作流/Qwen-VL-Max多模态模型能力的调用。这一组合打通了设备的“眼睛”和“大脑”,为诗歌创作提供了技术基础。
当你举起诗歌相机,随便拍下一张照片时,计算机视觉算法会立即开始分析图像数据。人工智能模型紧接着解读图像内容,识别其中的关键元素、颜色、环境、情绪氛围等信息。接着,这些信息会转化为一首诗,并以类似超市收银条的方式打印出来,就像拍立得打印照片一样,让人瞬间感受到创意的冲击。
1.2 效果展示
与拍立得的“出片”不同,诗歌相机是“拍照出诗”,这不仅令人期待,更充满惊喜。你可能会好奇:它究竟能生成怎样的诗歌呢?不如通过亲身体验来揭晓答案。
图源:TechCrunch 有用户拍下了早上自己在家里喝咖啡时玩手机的样子,诗歌相机的创作是: 镜头后面,一人调整视线, 在正方范围里的像素空间。 …… 日光透过褪色的薄纱, 他手上,温热的咖啡流转。 对话传出,跨过虚拟的边界, 他的倒影镜像,在屏幕上出现。 书架上,书本倾斜,无声的喋喋不休, 茂盛的植物,是唯一的生命。 戴着眼镜,家成了他平静的面糊, 在这堵墙里,他的世界四散开来。 在 2024 年 4 月的一个清晨, 一种新的常态,悄悄地磨损。 @poetry.camera |
图片来源:TechCrunch 另一演示则是对着纽约公共图书馆的天花板拍张照,它会解读并创作出: 「天花板的影子之舞, 如同金镶木, 用春日天空欺骗了眼睛 石碑和木梁下 伫足」 不难看出,哪怕经过简单翻译,它生成的文字依然有诗歌特有的「意象感」。诗歌相机的原文更显用词文法上「刻意地精妙」,比如每一段都在押韵脚,比如第一段的 lens,gaze,space,place,race,第二段的 sheers,steers,frontier,appears。在用词上也会采用诗歌用词,比如把 morning 写成 morn,就像中文里把「早上」写成「晨」一样。 “拍下眼前的景象,让相机为你生成一首诗”这一构思,不仅富有创意,乍一看似乎也颇具挑战性。但实际上,任何人都可以制作出一台属于自己的诗歌相机。 |
1.3 项目解析
目前,诗歌相机仍然停留在一个“艺术项目”阶段,尚未进入大规模商业化。两位开发者并没有这一方面的计划,他们仅仅是产生了这一创意,并成功制作出一台能够实现这一创意的原型。值得一提的是,他们所使用的软硬件全部都是开源的。因此,开发者们决定将详细的制作过程公开在网站上,鼓励更多人DIY,打造属于自己的诗歌相机。
诗歌相机的核心部分是一台微型卡片计算机——树莓派,再加上一些常见的配件。具体来说,除了树莓派相机模块、迷你热敏打印机、六个电池和一个按钮外,这些零部件足以让你完成这台独特的设备。
|
|
官方把详细的 DIY 教程发到了 GitHub|图源:Poetry Camera GitHub
项目的开源地址:https://github.com/carolynz/poetry-camera-rpi
诗歌的生成也可以通过阿里云百炼大模型平台的多模态能力(Qwen-VL-Max)进行对接,依赖其API_KEY。当按下快门时,脚本会自动触发,将拍摄的图片发送至阿里云百炼大模型平台生成一首诗,最终通过热敏收据打印机将诗歌打印出来。
如果说乔布斯所信奉的“技术与人文的十字路口”帮助他创造了极具美感的数码产品,那么诗歌相机则以一种互动的创新形式,为我们展示了技术与现实互动的另一种可能,突破了界限,创造了全新的表达方式,甚至激发了人类的观察力与想象力。
这一理念正是两位开发者的共识:技术应融入生活,帮助我们更好地欣赏日常,而不是压缩人类的生存空间。
联合创始人Kelin Carolyn Zhan坦言:“对我而言,这依然是艺术,它关乎表达。诗歌相机是塑造我们理想世界的工具,它也是一个让人们可以玩弄新技术的舞台:人工智能不仅仅是黑暗和悲观的代名词,它不仅仅是在以更深、更快、更糟糕的方式模仿人类,它通过新技术创造出全新的工具,而这些工具又能重新唤起人类内心的天真与好奇。对于这个项目而言,这不仅是为了盈利——而是为了让那些纯真而美好的奇迹再次成为可能。”
诗人夏宇所写的现代诗|图源:夏宇
Case 2 :Pailido - AI拍立得(开源代码)
诞生的背景:我在每次使用大模型工具时,总需要先编写复杂的Prompt,再上传图片,接着等待模型生成反馈,整个流程显得繁琐冗长。出于简化操作、提升效率的需求(作为一个懒人的自我救赎),我萌生了“AI拍立得”的概念:即拍即得,简化流程,让操作更直观、更高效。
之前的直播分享内容中也有提到关于AI拍立得的能力,往期回顾:Inhai: Agentic Workflow:AI 重塑了我的工作流
1.1 在线体验
究竟什么是AI拍立得呢?不如快速体验一把就知道了!Pailido -> 拍立得的谐音名称,是不是很好记 😂
AI 拍立得 - Pailido 拍照就能给你快速生成各类文案!
🔍 微信小程序搜索:Pailido |
丰富场景自由切换 |
快速生成闲鱼文案 |
生成外卖/大众点评 |
1.2 交互逻辑
用户可以选择拍摄场景类型,并立即拍照,AI会自动识别和分析照片中的内容信息,依据预设场景规则,迅速生成符合情境的反馈,避免繁琐的额外操作。
在AI拍立得的整体工作流中,其核心处理能力现已完全交由阿里云百炼大模型平台端执行。该模型系统集成了多模态的大模型以及垂直领域的小模型,也包含了知识库和插件的能力,处理链条涵盖了从图片的识别与理解、图片文字的提取,再到将文字与场景内容相结合,同时也能够支持风格化重构和输出的整个过程。
即时反馈速度是AI拍立得的关键诉求之一,确保用户获得拍摄后的实时反馈。最早在2月份测试时,质谱的GLM-4V版本在处理速度上表现最优。然而,随着使用的深入,发现其在图片理解以及Prompt富化场景能力方面略显不足,故而更换为通义VL模型。
通过API的方式去调用阿里云百炼大模型应用/工作流 |
详细的API对接文档信息 |
目前,Pailido小程序版本正在使用通义的Qwen-VL-Plus版本,该模型具有更强的图片理解和文本富化的能力。在Qwen-VL-Max版本效果更佳,但使用成本相对较高。
1.3 实现场景
图片转成文本
- 逻辑: 用户上传图片后,大模型根据所选场景生成相关的文字描述或解说文本。这一功能非常适用于需要将图片信息转化为文字进行分析、存档或共享的企业应用场景。
- 核心:
- 图片内容识别:大模型需要准确识别图片中的物体、场景、文字等信息。
- 高质量文本生成:根据图片生成的文字不仅需要准确,还需符合专业领域的要求,保证文字的逻辑性、清晰性与可读性。
- 场景应用:
- 产品文档生成(电商/零售):
- 企业可以利用该功能将商品的图片(如电器、服饰、化妆品等)上传到系统后,自动生成商品的详细描述、规格和卖点总结。这可以大大提高电商平台和零售商的商品上架效率,减少人工编写文案的工作量。
- 示例:“这款智能手表搭载最新的健康监测技术,支持全天候心率监测、运动跟踪等功能,拥有强大的电池续航能力,是运动健身爱好者的理想选择。”
- 社交媒体内容生成(品牌营销):
- 企业可使用图片转文本功能,帮助生成社交媒体平台的营销文案。通过上传产品展示图片或品牌活动图片,模型可自动生成具有吸引力的宣传文案,直接用于社交媒体发布,提高营销效率。
- 示例:“今天的新品发布,开启时尚新潮流!快来参与我们在XX商场的限时促销活动,尽享折扣优惠!”
- 法律文件自动生成(法律行业):
- 法律行业可以使用图片转文本技术,自动提取合同、证据材料等图片中的文本信息,生成法律文件摘要,辅助律师快速进行案件分析。
- 示例:合同图片转文本后,模型自动生成条款总结、关键内容提取,帮助律师快速掌握合同要点。
d. 学术题目搜寻(教育行业):
- 用户拍摄题目的图片后,系统将自动识别题目内容,并提供相关文本解答或者公式推导过程。同时,模型可以推荐相关的练习题或学习资料,帮助用户更好地掌握相关知识点。
- 示例:“拍照上传一道数学题,系统识别后,自动给出题目解析及步骤说明,并推荐相关习题供用户进一步练习。”
图片转绘图片
- 逻辑: 用户上传图片后,大模型根据用户指定的风格,快速生成图像的转绘版本。此功能可应用于企业对不同风格需求的适应,如品牌设计、产品个性化定制等。
- 核心:
- 图像风格迁移:根据设定的风格(如现代、复古、卡通等),将上传的图像快速转换成目标风格。
- 企业定制化:可以根据品牌的视觉需求进行图像定制,确保生成的图像与品牌形象、市场定位一致。
- 场景应用:
- 品牌视觉形象更新(品牌设计/广告创意):
- 企业可以利用图片转绘技术,通过将原始品牌标识、广告图片等转化为不同艺术风格(如手绘、复古风、极简风等),实现品牌形象的创新和视觉上的更新。尤其适合快速迭代品牌营销的企业。
- 示例:将品牌logo或海报风格转化为水彩画效果,适用于季节性营销或产品发布活动。
- 个性化商品定制(电商平台):
- 电商平台可以允许用户上传照片后,选择不同的艺术风格(如卡通、油画、素描等),生成定制化的商品图像。例如,用户可以定制个性化的T恤、手机壳、家居用品等。
- 示例:用户上传自己或家人的照片,系统将其转化为卡通风格图像,然后应用到商品上进行定制。
- 虚拟试衣(服装零售行业):
- 服装零售商可以结合图片转绘功能,为消费者提供虚拟试衣体验。用户上传自己的全身照片,选择不同的服饰风格,生成穿着效果图。
- 示例:用户上传自己的照片,选择一款新推出的服装款式,系统生成用户穿上该服装的效果图,并提供不同风格(如现代、复古、街头风等)的展示。
- 建筑设计效果图生成(建筑行业):
- 建筑公司可以利用该功能,将建筑设计草图或实景照片转化为不同风格的建筑效果图,帮助客户快速理解设计方案的外观效果。
- 示例:上传建筑外立面的设计草图后,模型可以自动生成不同风格(现代、古典、未来感等)的效果图,帮助客户快速选择最符合需求的设计风格。
- 企业文化宣传(内部沟通/员工活动):
- 企业可以使用图片转绘功能将员工活动、企业日常等照片转化为具有艺术感的绘画风格(如漫画风格、油画风格等),用于公司年会、员工奖励或企业文化宣传。
- 示例:将公司团队活动照片转化为漫画风格,制作成员工表彰册或宣传材料,提升企业文化的活力与互动性。
这里又不得不回到了我们第一节课给大家提到的一些场景,很多时候同样的场景,也可以通过拍照的形式去实现。
万相营造是阿里旗下AI智能创意平台,提供一站式生成图片、视频、文案服务。平台支持海量模板一键生成大片级商品图、超多AI模特任您选择、平铺服装一键上身立体呈现,更有智能抠图、高清放大、尺寸魔方等各种AI工具助您创意提效!https://www.wanxiang.art/
1.4 实现工作流
- 上传输入图片
- 理解图片信息,提取图片中的文本内容信息
- 场景提示词优化/图像风格化处理
- 返回文本/图像结果
1.5 开源代码
为了简化流程,我们选择了阿里云百炼大模型平台并实现了零代码版本的工作流,您仅需要安装python相关依赖,填写入API_KEY,app_id信息,微调您的prompt信息,就可以马上的部署运行。
代码开源地址:https://github.com/inhai-wiki/Pailido_AlibabaCloud?tab=readme-ov-file
1. 环境准备
- Python 3.8+
2. 依赖安装
pip install -r requirements.txt
3. 项目启动
python app.py
启动后访问下面的地址
http://localhost:8090
如果您的手机跟您的电脑都在同一wifi下,可以使用手机访问下面这个ip地址,手机端也可以进行访问~
http://192.168.0.105:8080
注意,由于手机安全限制的问题,我们必须得部署到服务器(https协议的)上才可以使用,这边就主要给大家通过网页端进行简单演示。
4.配置信息
Pailido支持了灵活的配置API_KEY信息,同时能够保存在用户手机本地,也可以快速的添加自定义场景,仅需输入场景名称和阿里云百炼上的appid信息即可。
配置阿里云百炼APP_KEY |
配置阿里云百炼的场景名称和appid |
如何获取appid?
“踏上取经之路,比抵达灵山更重要。”
阿里云百炼大模型平台,专注企业级大模型服务
我们下期共学再会
End
🙋 课后作业
完成3日作业打卡,可以获得由阿里云提供的奖品哦~
Tips:本次课程以阿里云UID作为打卡依据,请大家用同一个阿里云账号完成课程
- 问题:在今天的共学课程中,您体验了哪个场景呢?可以是场景应用、模型能力、RAG能力、低代码IDE能力等等。
- 提交地址:https://survey.aliyun.com/apps/zhiliao/Ci_fuJUp3
👇阿里云百炼xWaytoAGI共学课程直播详细信息可以点击下面链接了解:
https://developer.aliyun.com/article/1648248
👇阿里云百炼xWaytoAGI共学课DAY1 - 必须了解的企业级AI应用开发知识点可以点击下面链接查看:
https://developer.aliyun.com/article/1648327
👇阿里云百炼xWaytoAGI共学课 DAY2 - 更好用的文本知识库应用跟学,快速上手阿里云百炼可以点击下面链接查看:
https://developer.aliyun.com/article/1648403
🚀需要了解阿里云百炼可点击以下链接:
👉阿里云百炼详情了解可点击此官网链接:阿里云百炼官网介绍
👉阿里云百炼控制台页面可点击此链接直接进入:阿里云百炼控制台
欢迎大家踊跃参与,奖品等你领回家哦~如果您在学习过程中有遇到什么问题需要我们解答,可以直接加入我们的官方支持群(群号:101765012406)也可扫描二维码,进行交流反馈!