📣📣📣视觉智能开放平台子社区建立新版块——AI热点日报~
我们汇总了世界各地最具影响力的AI项目、研究成果和创新应用的信息,为读者带来前沿的科技资讯。无论你是科技爱好者、人工智能从业者或者只是对未来科技趋势感兴趣的读者,我们都致力于满足你的需求。通过简明易懂的报道和深入的分析,本系列文章将带你领略未来的畅想,了解人工智能正在如何改变我们的生活和社会。
不容错过的每一期,让我们与科技同行,共同探索AI的无限可能。
🌈热点内容直通车
1. 淘宝 AI 大模型“淘宝问问”正在内测,输入信息生成文字、图片、视频等
淘宝 AI 大模型“淘宝问问”正在进行内测,可在淘宝通过搜索“淘宝问问”提交内测申请,或通过邀请码参与测试。
淘宝问问是淘宝在原搜索功能上对电商搜索导购方式进行迭代的创新尝试,旨在结合用户输入,通过深度合成算法为用户提供更符合消费习惯的商品和内容。用户可以向淘宝问问输入信息(输入),并接收淘宝问问基于输入生成或返回的文字、图片、视频、音频等输出信息(输出)。淘宝问问输出含有基于深度合成技术的人工智能生成内容,且可能含有跳转至第三方的链接。
同时,输出中返回的商品及相关图片、视频、音频,是以用户的输入及基于输入生成的输出作为关键词检索获得,任何时候都不意味着淘宝对商品及相关内容的推荐。
2. 谷歌研究AI气味检测技术取得突破 人工智能已经可以闻到人类气味
研究人工智能深度学习的 Google Brain 团队近日在国际学术期刊《Science》上发表的实验报告中称,AI已经达到了可以像人类一样检测气味的地步。
气味区别于听觉和视觉,是由化合物的分子结构决定的,这使得人工智能很难检测到。谷歌大脑团队将大约 5000 个构成气味的分子结构数据注入配备此的 AI 中,并学习如何组合每个分子。经过实验发现,人工智能对每种气味的表达和鉴赏与人类受试者的评估平均值相似。
谷歌大脑团队表示,虽然人工智能无法对麝香或干草等不熟悉的气味做出准确的嗅觉判断,但令人惊讶的是,它用从未学过的分子结构来预测气味。负责该实验的一位官员表示,“即使人工智能闻到了每种化合物的分子结构并不相似的陌生气味,它也给出了出色的答案”。
谷歌大脑团队预计,AI的嗅觉检测技术未来将在与气味相关的神经科学和心理物理学等领域发挥作用。
3.腾讯健康公布医疗大模型:已在上海落地应用,支持“病历检索影像报告”等功能
腾讯健康日前公布了旗下医疗大模型,并发布“智能问答、家庭医生助手、数智医疗影像平台等多场景 AI 产品矩阵”,以及药物发现平台“云深”(iDrug)。这一医疗大模型基于腾讯混元大模型,加入了超过 285 万医疗实体、1250 万医学关系、超 98% 医学知识的知识图谱和医学文献,经过 3000 万包括患者、医生、药厂等场景及医疗流程的问答对话进行多任务微调,以及 36 万专家医生标注数据的强化学习。
腾讯表示,目前旗下医疗大模型适用于文案生成、智能问答、病历结构化和检索、影像报告和辅助诊断等场景,可嵌入医疗环节全流程,在科室导诊、医生推荐、预问诊、医患对话、病历自动生成和智能院务客服等应用场景中实现医疗服务水平和质量的全面提升。
目前,腾讯健康小程序已连接超 3000 家可挂号公立医院、超 5000 家体检机构,以及超 200 个城市的疫苗服务;医保电子凭证覆盖超 80 万家两定机构及超 20000 家医院;微信渠道的电子健康卡用户超 6 亿,接入 5000 多家医院。
📖新鲜论文早知道
Google Research|TaskLAMA:语言模型复杂任务理解探究:LLM在分解任务方面表现良好,对时间依赖关系理解仍有待改进
TaskLAMA:语言模型复杂任务理解探究
- 动机:研究如何用大型语言模型(LLM)来解决复杂任务理解的问题,特别是结构化复杂任务分解(SCTD)的问题。SCTD是将复杂的现实世界任务(如策划婚礼)分解为有向无环图,图中的每个步骤都有助于完成任务,并且边表示它们之间的时间依赖关系。研究LLM在SCTD问题上的性能,可以帮助我们了解LLM对复杂任务的理解能力。
- 优势:实验结果表明,LLM能有效地将复杂任务分解为单个步骤,相对于基准模型有15%至280%的相对改进。还提出一些方法来进一步提高LLM的性能,相对于基准模型有7%至37%的相对改进。然而,研究者发现LLM在预测步骤之间的时间依赖关系方面仍存在困难,揭示了它们对复杂任务理解的不足之处。
- 总结: 本文研究了使用大型语言模型解决复杂任务理解的问题,尤其是在结构化复杂任务分解方面的应用,结果显示LLM在分解任务步骤方面表现良好,但对时间依赖关系的理解仍有待改进。
论文链接:https://arxiv.org/abs/2308.15299
🔥开源模型先体验
基于Unreal Engine,Meta AI发布生成逼真图像的数据集PUG
Meta AI发布了一系列利用Unreal Engine生成逼真图像的数据集,已发布的数据集包括用于基础模型研究的PUG:Animals、用于评估图像分类器鲁棒性的PUG:ImageNet以及用于视觉语言模型评估的PUG:SPAR。此代码库包含:PUG数据集的下载链接、数据加载器、使用虚幻引擎从运行的交互环境中采样图像所需的脚本、使用PUG评估VLM模型的脚本SPAR、用于创建PUG数据集的资产列表(列在每个PUG文件夹中)。
合成图像数据集为设计和评估深度神经网络提供了无与伦比的优势:
- 根据需要渲染尽可能多的数据样本
- 精确控制每个场景并产生粒度地面真实标签和标题
- 精确控制训练和测试之间的分布偏移,以隔离对声音实验感兴趣的变量。
尽管有这样的承诺,但合成图像数据的使用仍然有限,而且经常被淡化,主要是因为它们缺乏现实主义。因此,大多数作品依赖于真实图像的数据集,这些数据通常从互联网上的公共图像中抓取,在隐私、偏见和版权方面可能存在问题,同时对对象的精确显示方式几乎没有控制。
在这项工作中,Meta提出了一条使真实感合成数据使用民主化的道路:我们为表示学习研究开发了新一代的互动环境,既提供了可控性,又提供了现实主义。我们使用虚幻引擎,一个在娱乐行业众所周知的强大游戏引擎,来生成用于表示学习的PUG(超现实虚幻图形)环境和数据集。在本文中,我们展示了PUG在对视觉模型进行更严格评估方面的潜力。
官网:https://pug.metademolab.com/
Github地址:https://github.com/facebookresearch/PUG
论文:https://arxiv.org/abs/2308.03977
📈前沿研究多传递
YC S23 百家AI项目预示硅谷投资转向:AIGC退潮,AI+落地
Y Combinator一年两度的路演作为硅谷的投资风向标一直备受关注。硅兔君发现,硅谷的AI投资风向悄悄出现了以下变化:
- YC的AI浓度又提高了。据已披露数据,186个美国项目中105家与AI相关,占比达57%,相较上一届比例提升了7%。
- AIOps(LLMOps)工具取代ChatUI(用对话交互界面改造数据库、搜索等现有交互方式的项目)应用成为本届最受欢迎的创业方向。项目数量最多的细分领域分别是编排、测试与评估、微调和算力,而上一届项目数量最聚集的细分领域分别是编排、向量数据库、监督。上一届没有做模型测试与评估、模型微调的项目。
- Copilot概念走红。Copilot取代ChatUI重新定义赋能销售、客服、产品经理、会计税务的生成式AI应用。
- 服务开发者的各类代码工具和RPA工具持续火热,这类效率工具占比由15%提升到24%。
- AI生成图片、3D内容的项目消失,且这类内容生成AIGC项目数量下降50%,与此相比,AI+项目数量增加。
整体感觉,本届YC AI项目选择的落地场景更具体,切口更小,从微观角度,我们扫描了105个AI项目,按照LLMOps、Productivity效率工具、Copilot、AI+、AIGC应用五类进行了解析 👉
https://mp.weixin.qq.com/s/RM1e5DhT6oabb454016XOA
关注子社区,每周热点抢先看~
更多精彩内容欢迎点击下方链接,了解更多viapi相关信息。