多模态AI单词助记模型体验

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: 一文带你了解多模态AI单词助记模型的优与劣

产品简介

本次体验的产品是一个可以帮助用户记忆单词的AI模型,基于星火认知大模型的多模态AI单词助记应用,旨在于通过荒谬而反直觉的故事和助记图片帮助用户记忆单词。提供两种模式,第一种是demo,点击“生成故事demo”,无需其他操作,等待20s生成即可;第二种是输入单词后,点击“生成故事”。本次体验有两个功能点,一个是图文记忆,一个是视觉学习。下面开始分别体验:点击该链接即可前往进行体验。

图文记忆

这个功能提供了两种模式,一个是demo,一个是自定义。

demo的话操作非常简单,只需要选择任意一组词汇,点击“生成故事demo”就行。如下

根据词汇生成的故事

根据故事会生成的图片提示词

根据提示词生成的图片

  • 这里可以很明显看出demo是有问题的,虽然提供了四组词汇,但无论你怎么选择,始终只会使用第一组,且无法根据提示词生成图片。

既然demo生成有问题,下面就体验自定义看看结果如何。

生成的故事

这个生成效果让我很吃惊,我词汇里明明是没有苹果等水果的啊,这怎么还上面的那个故事非常像呢。为了验证误差,我在此点击生成,如下:

这回的效果直接成了图片提示词了,不得不说效果非常糟糕。

在这里可能会有小伙伴质疑,你使用的是官网列子,肯定是会有同demo一样的问题啊,为了消除大家的顾虑,我输入了自定义词汇,生成故事如下:

看到这你是不是很无语啊,我的词汇里根本没有car吧。

  • 总结:其实从功能体验来看,目前还只能勉强算个demo吧,不但没法准确生成故事,更不用谈根据提示词生成图片了。实际上,从每次生成体验来看,文本框中的内容都是累加的,这就导致后面的词汇关联上了前面的,情况很糟糕。强烈建议优化后再上线。

视觉学习

为了避免误操作导致效果不精准,这里先就操作步骤简单描述,如下:

下面就分别体验上述三种上传方式,看看识别率怎么样。

  • 第一种上传本地图片,如下:

    这个识别率能达到90%,除了TV没有识别出外,其他均准确识别到了。点击生成释义看看效果如何:

    给出的释义还是非常不错的,例句也相对简单易懂,效果不错。
  • 第二种拍摄图片,操作步骤如下:

    看看识别效果如何:

    我这个拍摄的场景元素其实还是蛮负责的,既有近处元素,还有远处的。识别率80%,主要是后面的大冰箱和门框没有识别出来。但这个识别中的transparent,还是值得点赞的,它把盒子的透明度给识别出来了。点击生成释义,看看情况怎么样:

    生成释义的效果一如既往的好,通俗易懂,对于单词记忆有帮助。
  • 第三种读取剪切板图片,操作步骤如下:

    我任意选择一张图片进行复制操作,而后点击这里的按钮进行读取,识别效果如下:

    这个识别率还是挺高的,但可能违背了记忆英文单词的这个初衷,均没有给出相应的词汇。这里为了验证效果,我另外选择了一张,识别效果如下:

    从这里可以非常好地理解,为啥纯文字的识别有问题,是因为缺乏了识别的物体元素。这次的识别率还不错,就是这个phone和umbrella,我识别没看出是哪里体现了。
    看看生成释义情况如何:

    这个功能还是一如既往的稳定,值得点赞表扬。

体验总结

1、整个体验流程还是非常通顺的,通过魔塔模型可以直接在线体验,免去了传统部署搭建环境,主打一个开箱即用,高效便捷。

2、针对图文记忆模块,目前体验下来也就是demo效果,除了无法正常根据词汇准确生成故事,更没法根据提示词生成图片。此外,生成故事文本框的内容是没法手动删除的,而图片提示词文本框的内容又是可以的。虽然提供了四组词汇,但demo始终只认有apple的第一组,体验非常糟糕。

3、视觉学习模块整体效果非常不错,不但提供了三种图片上传方式,还温馨提供了example。图片的整体识别率还挺高,基本元素都能被识别到;生成释义和例句是这里非常值得点赞的一个功能点,除了单词多生成速度略慢外,其他均很优秀。这里唯一要吐槽的点是没有针对上传图片进行说明,也就是如果图片中是纯文字的,它可能无法识别成词汇,只有带有可识别物体元素的图片才能正常识别到词汇。

4、不管是图片记忆还是视觉学习,都没有针对既有内容设计清理按钮,用户需要主动选中删除键进行删除,有些文本框还不支持删除,这点体验非常不友好。

5、在模型开头的描述中,作者有提到后期的更新计划,比如加入本地单词库上传和选择预设单词库功能,还有克隆音色朗读功能等,这些点还是值得非常期待的,在这里感谢作者日夜编码,给大家带来优秀模型工具,期待更多功能点上线。

目录
相关文章
|
11天前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
|
4天前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
135 73
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
【9月更文挑战第4天】赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
|
24天前
|
人工智能 文字识别 算法
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling是一款强大的辅助标注工具,集成了AI推理引擎和丰富功能,为图像数据工程师提供一站式解决方案。它支持图像和视频文件的自动标注,提供了包括矩形框、多边形在内的七种标注样式,适应多样化的训练场景需求。X-AnyLabeling内置了多种SOTA级AI模型,如YOLO、SAM系列等,并支持GPU加速和多种数据集格式的导入导出,确保高效的数据处理。此外,它还具备良好的跨平台兼容性,可在多种操作系统上运行,并提供详尽的帮助文档和社区支持,帮助用户轻松上手并解决使用过程中遇到的问题。
88 2
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
|
6天前
|
人工智能 自动驾驶 云计算
【通义】AI视界|谷歌大模型被盯上!欧盟最高隐私监管机构对PaLM2模型展开调查~
本文汇总了近24小时内科技领域的五大要闻:欧盟对谷歌PaLM2模型启动隐私合规调查;甲骨文推出Zettascale云计算集群,集成大量NVIDIA GPU强化计算力;红杉资本偏好AI应用投资而非模型构建;夸克新推智能助手CueMe,支持长达2万字内容生成;沃尔沃与NVIDIA合作,未来车型将采用后者先进芯片提升自动驾驶功能。以上内容由通义自动生成。
|
8天前
|
机器学习/深度学习 人工智能 供应链
【通义】AI视界|OpenAI的“草莓”模型预计两周内上线!像人类一样思考!
本文介绍了近期科技领域的五大亮点:OpenAI即将推出的新一代AI模型“草莓”,具备高级推理能力;亚马逊测试AI技术加速有声读物生产,通过语音克隆提高效率;Kimi API新增联网搜索功能,拓宽信息来源;顺丰发布物流行业专用大语言模型“丰语”,提升工作效率;钉钉推出“AI班级群”功能,改善家校沟通体验。更多详情,请访问[通义官网]。
|
12天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
11天前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
19天前
|
机器学习/深度学习 人工智能
AI模型提早5年预警乳腺癌,MIT研究登Science获LeCun转发
【9月更文挑战第1天】麻省理工学院(MIT)研究人员开发的深度学习AI模型,在乳腺癌早期预警方面取得突破性进展,相比传统方法提前5年预警癌症,准确率超过90%。此成果不仅在医学界引起轰动,还获得了人工智能领域知名学者Yann LeCun的高度评价。尽管面临准确性和可解释性的挑战,但该研究展示了AI在医疗领域的巨大潜力,有望革新乳腺癌的早期筛查和诊断方式。论文详情见[链接]。
22 3
|
21天前
|
机器学习/深度学习 人工智能 Android开发
揭秘AI编程:从零开始构建你的第一个机器学习模型移动应用开发之旅:从新手到专家
【8月更文挑战第29天】本文将带你走进人工智能的奇妙世界,一起探索如何从零开始构建一个机器学习模型。我们将一步步解析整个过程,包括数据收集、预处理、模型选择、训练和测试等步骤,让你对AI编程有一个全面而深入的理解。无论你是AI初学者,还是有一定基础的开发者,都能在这篇文章中找到你需要的信息和启示。让我们一起开启这段激动人心的AI编程之旅吧! 【8月更文挑战第29天】在这篇文章中,我们将探索移动应用开发的奇妙世界。无论你是刚刚踏入这个领域的新手,还是已经有一定经验的开发者,这篇文章都将为你提供有价值的信息和指导。我们将从基础开始,逐步深入到更复杂的主题,包括移动操作系统的选择、开发工具的使用、