信息无障碍

首页 标签 信息无障碍
# 信息无障碍 #
关注
364内容
|
2月前
|
深度学习之图像描述生成
基于深度学习的图像描述生成(Image Captioning)是一种将计算机视觉与自然语言处理结合的任务,其目标是通过自动生成自然语言来描述输入的图像。该技术能够理解图像中的视觉内容,并生成相应的文本描述,广泛应用于视觉问答、辅助盲人、自动视频字幕生成等领域。
《零基础实践深度学习》波士顿房价预测任务1.3.3.4训练过程
这篇文章详细阐述了如何使用线性回归对波士顿房价进行预测,包括构建神经网络模型、数据处理、模型设计、训练过程、梯度下降法以及随机梯度下降法(SGD)的应用,并提供了完整的Python代码实现。
|
3月前
|
VLM集体失明?视力测试惨败,GPT-4o、Claude 3.5全都不及格
【8月更文挑战第2天】新研究表明,顶尖视觉语言模型(VLMs)如GPT-4o和Claude 3.5,在看似简单的视觉任务上表现堪忧,诸如判断圆圈是否重叠或线条是否交叉等。此发现揭示了即便是在图像理解方面表现出色的VLMs也存在基本视觉认知的局限性,提示模型融合视觉信息的方式有待改进。论文详细探讨了可能的原因及未来提升方向。[@arxiv:2407.06581]
|
4月前
|
这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于视力测试
【7月更文挑战第28天】新研究表明VLM在简单视觉任务上的局限性。论文《Vision language models are blind》指出, GPT-4o、Claude-3.5 Sonnet等顶级模型在如判断形状重叠或字母识别等基本任务上表现不佳。另一研究在CVPR'24上介绍了一个新框架, 利用TRUMANS数据集生成精细的人物动作, 包括手部运动, 显示出在复杂场景下的强大能力, 尽管仍面临一定的局限。[论文链接](https://arxiv.org/pdf/2407.06581) [TRUMANS](https://arxiv.org/pdf/2403.08629)
|
4月前
| |
来自: 云原生
深度学习Deep Learning
深度学习算法的历史可以追溯到上世纪40年代,当时Warren McCulloch和Walter Pitts提出了第一个人工神经元模型,奠定了神经网络研究的基础。随后,Rosenblatt于1958年提出了感知机模型,引领了神经网络研究的新浪潮。然而,传统神经网络的局限性使其无法解决复杂的、非线性的问题,导致研究进展受限。
免费试用