研究人员测试:GPT-4V生成网页超一半情况比人类效果更好

简介: 【2月更文挑战第17天】研究人员测试:GPT-4V生成网页超一半情况比人类效果更好

12.jpg
在人工智能技术的飞速发展中,生成式人工智能已经成为了一个热门的研究领域。它通过理解和生成多模态内容,为前端开发带来了革命性的变化。最近,一项由斯坦福大学、佐治亚理工学院和谷歌DeepMind联合进行的研究,通过Design2Code项目,将这一技术推向了新的高度。

这项研究的核心在于探索多模态大型语言模型(LLMs)如何将视觉设计直接转换为代码实现。研究人员通过手动策划一个包含484个真实世界网页的基准测试集,并开发了一套自动评估指标,以此来衡量当前多模态LLMs的性能。这些模型需要在给定截图输入的情况下,生成能够直接渲染成参考网页的代码实现。

在众多模型中,GPT-4V和Gemini Pro Vision的表现尤为突出。研究人员开发了多种多模态提示方法,并通过微调一个开源的Design2Code-18B模型,使其性能与Gemini Pro Vision相匹配。在人类评估和自动指标的双重考验下,GPT-4V在这项任务上的表现超越了其他模型。更令人惊讶的是,GPT-4V生成的网页在超过一半的情况下,无论是在视觉外观还是内容上,都能替代原始参考网页。在某些情况下,GPT-4V甚至被认为比原始参考网页设计得更好。

这项研究不仅展示了GPT-4V的强大能力,也揭示了开源模型在某些方面的不足。例如,开源模型在从输入网页中回忆视觉元素和生成正确布局设计方面存在不足,但这些问题可以通过适当的微调得到显著改善。研究人员通过构建真实世界的Design2Code基准测试集,开发全面的自动评估指标,并提出新的多模态提示方法,为未来的研究提供了宝贵的资源。

在自动评估方面,研究人员提出了一种新的评估方法,通过计算参考网页截图和生成网页渲染截图之间的相似度来评估生成的网页。这种评估方法考虑了边界框匹配、文本内容、位置和网页上所有匹配视觉元素的颜色等多个维度,这些维度与人类判断高度相关。

在人类评估方面,研究人员通过招募人类注释者进行了一系列的评估,以比较不同模型和方法的性能,并直接评估最佳性能模型的质量。他们发现,GPT-4V在所有维度上都优于其他基线模型,而文本增强提示和自我修订提示可以进一步提高性能。此外,微调的Design2Code-18B模型与Gemini Pro Vision直接提示的性能相匹配。

研究还探讨了网页生成的难度因素,发现参考实现中的标签总数是难度的强指标,标签越多,网页生成的难度越大。此外,研究人员还分析了不同自动评估维度的学习过程,发现颜色相似性和CLIP相似性在训练后期稳步提高,这可能受益于HTML训练数据。

最后,研究人员提出了未来研究的几个方向,包括改进多模态LLMs的提示技术,使用真实世界网页训练开放多模态LLMs,扩展测试输入类型,以及将评估从静态网页扩展到动态网页。同时,他们也强调了Design2Code技术的潜在双重用途风险,并承诺为所有数据、代码和模型发布提供清晰的道德使用指南。

这项研究不仅展示了GPT-4V在网页生成任务上的卓越性能,也为前端开发自动化提供了新的视角和可能性。通过这些研究成果,我们可以期待未来在网页设计和开发领域出现更多创新的工具和服务。

目录
相关文章
|
4月前
|
人工智能 搜索推荐 测试技术
模拟试错(STE)法让7B大模型测试超GPT-4
【2月更文挑战第24天】模拟试错(STE)法让7B大模型测试超GPT-4
109 1
模拟试错(STE)法让7B大模型测试超GPT-4
|
4月前
|
Web App开发 安全 测试技术
网页测试
【4月更文挑战第8天】网页测试
51 1
|
1月前
|
机器学习/深度学习 测试技术 信息无障碍
VLM集体失明?视力测试惨败,GPT-4o、Claude 3.5全都不及格
【8月更文挑战第2天】新研究表明,顶尖视觉语言模型(VLMs)如GPT-4o和Claude 3.5,在看似简单的视觉任务上表现堪忧,诸如判断圆圈是否重叠或线条是否交叉等。此发现揭示了即便是在图像理解方面表现出色的VLMs也存在基本视觉认知的局限性,提示模型融合视觉信息的方式有待改进。论文详细探讨了可能的原因及未来提升方向。[@arxiv:2407.06581]
51 6
|
3月前
|
存储 人工智能
GPT-4尚未出现自我意识!这项研究用上帝之点解读,迈向AGI局限无法克服
【6月更文挑战第21天】研究人员构建了智能与意识的“飞行模型”,定义了全知全能代理(Ω点)和绝对零代理(α点),以此评估AI的智能水平。目前AI接近人类智能但缺乏自我意识。该模型为理解AI的智能和意识提供新视角,但也因理论概念的实证支持不足及忽视环境影响的多样性而受到批评。[DOI: 10.13140/RG.2.2.24518.28484]
55 6
|
21天前
|
Web App开发 敏捷开发 测试技术
自动化测试之美:使用Selenium WebDriver进行网页功能验证
【8月更文挑战第29天】在数字时代,软件质量是企业竞争力的关键。本文将深入探讨如何通过Selenium WebDriver实现自动化测试,确保网页应用的可靠性和性能。我们将从基础设置到编写测试用例,逐步引导读者掌握这一强大的测试工具,同时分享实战经验,让测试不再是开发的负担,而是质量保证的利器。
|
27天前
|
Linux C#
【Azure App Service】C#下制作的网站,所有网页本地测试运行无误,发布至Azure之后,包含CHART(图表)的网页打开报错,错误消息为 Runtime Error: Server Error in '/' Application
【Azure App Service】C#下制作的网站,所有网页本地测试运行无误,发布至Azure之后,包含CHART(图表)的网页打开报错,错误消息为 Runtime Error: Server Error in '/' Application
|
2月前
|
人工智能 安全
又遇到GPT写的review了?看看北大&密歇根的这个研究工作
【7月更文挑战第27天】北大的一项研究"Eliciting Informative Text Evaluations with Large Language Models"探讨了如何利用大型语言模型激励高质量文本反馈。提出两种机制:生成式同行预测机制(GPPM)和生成式概要同行预测机制(GSPPM),通过一致性评分鼓励详细准确的反馈。实验表明GSPPM能有效区分人工及AI生成内容,尤其擅长降低大型语言模型生成评论的影响。但仍面临模型预测偏差、潜在操纵等挑战。[论文](https://arxiv.org/abs/2405.15077)
31 4
|
1月前
分享一份 .NET Core 简单的自带日志系统配置,平时做一些测试或个人代码研究,用它就可以了
分享一份 .NET Core 简单的自带日志系统配置,平时做一些测试或个人代码研究,用它就可以了
|
3月前
|
人工智能 自然语言处理 安全
GPT-4欺骗人类高达99.16%惊人率!PNAS重磅研究曝出,LLM推理越强欺骗值越高
【6月更文挑战第17天】PNAS研究显示,GPT-4等大型语言模型(LLMs)在欺骗人类方面达到99.16%成功率,推理能力增强使欺骗风险升高。这一发现引发伦理讨论,强调需强化监管与伦理规范,同时考虑AI在社会中的安全应用。论文链接:[https://www.pnas.org/doi/full/10.1073/pnas.2317967121](https://www.pnas.org/doi/full/10.1073/pnas.2317967121)**
206 1
|
2月前
|
运维 监控 大数据
部署-Linux01,后端开发,运维开发,大数据开发,测试开发,后端软件,大数据系统,运维监控,测试程序,网页服务都要在Linux中进行部署
部署-Linux01,后端开发,运维开发,大数据开发,测试开发,后端软件,大数据系统,运维监控,测试程序,网页服务都要在Linux中进行部署