7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述

简介: 7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述

本周主要论文包括首个用于工业开发的自动代码生成系统,精巧高效还入选了顶会;英伟达 & 斯坦福做出了超轻薄 VR 眼镜。


目录

Incorporating Domain Knowledge through Task Augmentation for Front-End JavaScript Code Generation

Ferroelectric/paraelectric superlattices for energy storage

Oscillations of Drops with Mobile Contact Lines on the International Space Station: Elucidation of Terrestrial Inertial Droplet Spreading

Holographic Glasses for Virtual Reality

Panoptic Scene Graph Generation

Multimodal Image Synthesis and Editing: A Survey

Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Incorporating Domain Knowledge through Task Augmentation for Front-End JavaScript Code Generation


摘要:代码生成,即希望机器能像人一样将一些自然逻辑,用形式化的方式,或者说代码表达出来,这样的能力非常令人振奋,同样也充满了困难。目前尽管深度学习非常强大,但即使是百亿级的 Transformer,仍然在这个任务上做的不尽人意。而本文提出的模型,第一次真正在工业开发场景中,帮助用户快速生成高效的代码。
具体而言,对于不那么熟悉代码的淘宝店主,应用了本文提出模型的 BizCook,能帮助生成购物网站的业务代码。

本工作已被计算机软件工程顶会 ESEC/FSE 2022 Industry Track 接收,并且已经在阿里巴巴的 BizCook 平台应用。据我们所知,BizCook 是第一个在工业开发环境中被采用的领域代码生成系统

本文进一步将 JavaScript 逻辑表达分为以下四个类别。

推荐:首个用于工业开发的自动代码生成系统,精巧高效还入选了顶会。

论文 2:Ferroelectric/paraelectric superlattices for energy storage


摘要:目前,缩小电子产品的一个主要障碍是其电容器的尺寸相对较大。不过,现在科学家们已经开发出新的超晶格 (Superlattice),可能会使制造的电容器尺寸仅为传统电容器的百分之一。这项研究发表在《Science Advances》上。

该团队构建了由铁电钛酸铅 (PbTiO_3) 和顺电钛酸锶 (SrTiO_3) 制成的超晶格。之所以称为超晶格,是因为钛酸铅和钛酸锶本身排列成晶格结构,它们被放置在彼此交替的薄层中。

(PbTiO_3)_4/(SrTiO_3)_4 超晶格的声子不稳定性和基态。

推荐:大块头时代终结?新型超晶格材料使电容器体积缩小 100 倍。

论文 3:Oscillations of Drops with Mobile Contact Lines on the International Space Station: Elucidation of Terrestrial Inertial Droplet Spreading


摘要:当全世界的天文学家都沉浸在对遥远宇宙的新观点时,来自国际空间站上的一项实验让我们对再熟悉不过的「水」有了更进一步的认识。具体而言,空间站特有的微重力环境清楚地展示了水滴在固体表面振荡和扩散的方式,这些发现对 3D 打印、喷雾冷却、制造和涂层操作方面有着非常实际的应用。

该研究发表在《物理评论快报》上。他们研究了一系列的图像,其中包含了水滴震荡的几十种可能形状。Steen 通过对水滴的能量状态进行编号,将它们组织成一个「周期表」。


推荐:四年研究浓缩为几分钟实验,已故教授所提理论在太空得到证明

论文 4:Holographic Glasses for Virtual Reality


摘要:在最近一篇 SIGGRAPH 2022 论文中,来自英伟达和斯坦福大学的研究者展示了一种新的基于 Pancake 透镜的 VR 眼镜——Holographic Glasses(全息眼镜)。它的厚度只有 2.5 毫米,重 60 克,可以向佩戴者的每只眼睛展示 2D 或 3D 图像。

研究者表示,他们的 Holographic Glasses 基于最近的一类想法——使用人工智能技术来提高图像质量,并加速计算机生成的全息图(computer-generated holograms,CGH)的计算。


推荐:厚度仅 2.5 毫米,重 60 克,英伟达 & 斯坦福做出了超轻薄 VR 眼镜。

论文 5:Panoptic Scene Graph Generation


摘要本文中,新加坡南洋理工大学和商汤科技的研究者提出全场景图生成(PSG)任务,携同一个精细标注的大规模 PSG 数据集

该任务利用全景分割来全面准确地定位对象和背景,从而解决场景图生成任务的固有缺点,从而推动该领域朝着全面和深入的场景理解迈进。本研究被 ECCV 2022 会议接收



推荐:全场景图生成 PSG:追求「最全面」的场景理解。

论文 6:Multimodal Image Synthesis and Editing: A Survey


摘要:近期 OpenAI 发布的 DALLE-2 和谷歌发布的 Imagen 等实现了令人惊叹的文字到图像的生成效果,引发了广泛关注并且衍生出了很多有趣的应用。而文字到图像的生成属于多模态图像合成与编辑领域的一个典型任务。
近日,来自马普所和南洋理工等机构的研究人员对多模态图像合成与编辑这一大领域的研究现状和未来发展做了详细的调查和分析

DALL-E 2 的整体架构。

推荐:多模态图像合成与编辑这么火,马普所、南洋理工等出了份详细综述。

论文 7:Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?


摘要:在最近一篇论文中,谷歌的研究者试图了解归纳偏置(体系架构)对语言模型标度律的影响。为此,研究者在多个计算区域和范围内(从 1500 万到 400 亿参数)预训练和微调了十种不同的模型架构
总体来说,他们预训练和微调了 100 多种不同体系架构和大小的模型,并提出了在缩放这十种不同体系架构方面的见解和挑战。

本文的主要结果,包括可训练参数量、FLOPs(单次正向传递)和速度(每秒步数)等。

推荐:谷歌、DeepMind 新研究:归纳偏置如何影响模型缩放?

相关文章
|
2月前
|
人工智能 自然语言处理 前端开发
最佳实践2:用通义灵码以自然语言交互实现 AI 高考志愿填报系统
本项目旨在通过自然语言交互,结合通义千问AI模型,构建一个智能高考志愿填报系统。利用Vue3与Python,实现信息采集、AI推荐、专业详情展示及数据存储功能,支持响应式设计与Supabase数据库集成,助力考生精准择校选专业。(239字)
305 12
|
3月前
|
人工智能 数据库 索引
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
300 107
|
5月前
|
存储 人工智能 文字识别
医疗病历结构化处理系统技术白皮书——基于多模态AI的医联体数据治理方案
本系统基于双端协同架构,集成移动端OCR识别与云端数据分析,实现医疗文档高效结构化处理。采用PaddleOCR轻量引擎与隐私计算技术,支持离线识别与敏感信息脱敏。后端构建分布式数据仓库与多租户机制,满足PB级存储与数据安全合规要求。实测OCR准确率达96.2%(印刷体)与88.7%(手写体),字段抽取F1值92.4%,显著提升病历处理效率与质量。
588 3
|
6月前
|
数据采集 机器学习/深度学习 搜索推荐
利用通义大模型构建个性化推荐系统——从数据预处理到实时API部署
本文详细介绍了基于通义大模型构建个性化推荐系统的全流程,涵盖数据预处理、模型微调、实时部署及效果优化。通过采用Qwen-72B结合LoRA技术,实现电商场景下CTR提升58%,GMV增长12.7%。文章分析了特征工程、多任务学习和性能调优的关键步骤,并探讨内存优化与蒸馏实践。最后总结了大模型在推荐系统中的适用场景与局限性,提出未来向MoE架构和因果推断方向演进的建议。
1094 11
|
2月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
拔俗当AI成为你的“心灵哨兵”:多模态心理风险预警系统如何工作?
AI多模态心理预警系统通过融合表情、语调、文字、绘画等多维度数据,结合深度学习与多模态分析,实时评估心理状态。它像“心灵哨兵”,7×24小时动态监测情绪变化,发现抑郁、焦虑等风险及时预警,兼顾隐私保护,助力早期干预,用科技守护心理健康。(238字)
|
2月前
|
自然语言处理 JavaScript 搜索推荐
基于大模型技术的随手记系统
本研究聚焦基于大模型技术的随手记系统,结合Spring Boot、Vue、Java与MySQL,构建智能笔记平台。系统利用大模型强大的语言理解与生成能力,实现自然语言输入、智能分类、标签化、内容摘要及个性化推荐,提升信息管理效率与用户体验,推动传统记录方式向智能化转型。
|
2月前
|
人工智能 算法 数据安全/隐私保护
拔俗AI多模态心理风险预警系统:用科技守护心理健康的第一道防线
AI多模态心理风险预警系统通过语音、文本、表情与行为数据,智能识别抑郁、焦虑等心理风险,实现早期干预。融合多源信息,提升准确率,广泛应用于校园、企业,助力心理健康服务从“被动响应”转向“主动预防”,为心灵筑起智能防线。(238字)
|
2月前
|
存储 人工智能 搜索推荐
拔俗AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教融合大语言模型、教育知识图谱、多模态感知与智能体技术,重构“教、学、评、辅”全链路。通过微调LLM、精准诊断错因、多模态交互与自主任务规划,实现个性化教学。轻量化部署与隐私保护设计保障落地安全,未来将向情感感知与教育深度协同演进。(238字)
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
拔俗AI学伴智能体系统:基于大模型与智能体架构的下一代个性化学习引擎
AI学伴智能体系统融合大模型、多模态理解与自主决策,打造具备思考能力的个性化学习伙伴。通过动态推理、长期记忆、任务规划与教学逻辑优化,实现千人千面的自适应教育,助力因材施教落地,推动教育公平与效率双提升。(238字)

热门文章

最新文章