多模态AI单词助记模型体验-阿里云开发者社区

多模态AI单词助记模型体验

2024-08-18 174

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，7款服务类型 1个月

简介： 一文带你了解多模态AI单词助记模型的优与劣

产品简介

本次体验的产品是一个可以帮助用户记忆单词的AI模型，基于星火认知大模型的多模态AI单词助记应用，旨在于通过荒谬而反直觉的故事和助记图片帮助用户记忆单词。提供两种模式，第一种是demo，点击“生成故事demo”，无需其他操作，等待20s生成即可；第二种是输入单词后，点击“生成故事”。本次体验有两个功能点，一个是图文记忆，一个是视觉学习。下面开始分别体验：点击该链接即可前往进行体验。

图文记忆

这个功能提供了两种模式，一个是demo，一个是自定义。

demo的话操作非常简单，只需要选择任意一组词汇，点击“生成故事demo”就行。如下

根据词汇生成的故事

根据故事会生成的图片提示词

根据提示词生成的图片

这里可以很明显看出demo是有问题的，虽然提供了四组词汇，但无论你怎么选择，始终只会使用第一组，且无法根据提示词生成图片。

既然demo生成有问题，下面就体验自定义看看结果如何。

生成的故事

这个生成效果让我很吃惊，我词汇里明明是没有苹果等水果的啊，这怎么还上面的那个故事非常像呢。为了验证误差，我在此点击生成，如下：

这回的效果直接成了图片提示词了，不得不说效果非常糟糕。

在这里可能会有小伙伴质疑，你使用的是官网列子，肯定是会有同demo一样的问题啊，为了消除大家的顾虑，我输入了自定义词汇，生成故事如下：

看到这你是不是很无语啊，我的词汇里根本没有car吧。

总结：其实从功能体验来看，目前还只能勉强算个demo吧，不但没法准确生成故事，更不用谈根据提示词生成图片了。实际上，从每次生成体验来看，文本框中的内容都是累加的，这就导致后面的词汇关联上了前面的，情况很糟糕。强烈建议优化后再上线。

视觉学习

为了避免误操作导致效果不精准，这里先就操作步骤简单描述，如下：

下面就分别体验上述三种上传方式，看看识别率怎么样。

第一种上传本地图片，如下：

这个识别率能达到90%，除了TV没有识别出外，其他均准确识别到了。点击生成释义看看效果如何：

给出的释义还是非常不错的，例句也相对简单易懂，效果不错。
第二种拍摄图片，操作步骤如下：

看看识别效果如何：

我这个拍摄的场景元素其实还是蛮负责的，既有近处元素，还有远处的。识别率80%，主要是后面的大冰箱和门框没有识别出来。但这个识别中的transparent，还是值得点赞的，它把盒子的透明度给识别出来了。点击生成释义，看看情况怎么样：

生成释义的效果一如既往的好，通俗易懂，对于单词记忆有帮助。
第三种读取剪切板图片，操作步骤如下：

我任意选择一张图片进行复制操作，而后点击这里的按钮进行读取，识别效果如下：

这个识别率还是挺高的，但可能违背了记忆英文单词的这个初衷，均没有给出相应的词汇。这里为了验证效果，我另外选择了一张，识别效果如下：

从这里可以非常好地理解，为啥纯文字的识别有问题，是因为缺乏了识别的物体元素。这次的识别率还不错，就是这个phone和umbrella，我识别没看出是哪里体现了。
看看生成释义情况如何：

这个功能还是一如既往的稳定，值得点赞表扬。

体验总结

1、整个体验流程还是非常通顺的，通过魔塔模型可以直接在线体验，免去了传统部署搭建环境，主打一个开箱即用，高效便捷。

2、针对图文记忆模块，目前体验下来也就是demo效果，除了无法正常根据词汇准确生成故事，更没法根据提示词生成图片。此外，生成故事文本框的内容是没法手动删除的，而图片提示词文本框的内容又是可以的。虽然提供了四组词汇，但demo始终只认有apple的第一组，体验非常糟糕。

3、视觉学习模块整体效果非常不错，不但提供了三种图片上传方式，还温馨提供了example。图片的整体识别率还挺高，基本元素都能被识别到；生成释义和例句是这里非常值得点赞的一个功能点，除了单词多生成速度略慢外，其他均很优秀。这里唯一要吐槽的点是没有针对上传图片进行说明，也就是如果图片中是纯文字的，它可能无法识别成词汇，只有带有可识别物体元素的图片才能正常识别到词汇。

4、不管是图片记忆还是视觉学习，都没有针对既有内容设计清理按钮，用户需要主动选中删除键进行删除，有些文本框还不支持删除，这点体验非常不友好。

5、在模型开头的描述中，作者有提到后期的更新计划，比如加入本地单词库上传和选择预设单词库功能，还有克隆音色朗读功能等，这些点还是值得非常期待的，在这里感谢作者日夜编码，给大家带来优秀模型工具，期待更多功能点上线。

多模态AI单词助记模型体验

产品简介

图文记忆

视觉学习

体验总结

多模态

热门文章

最新文章

相关课程

相关电子书

相关实验场景