AddressCLIP:一张照片就能准确定位!中科院联合阿里云推出街道级图像地理定位模型

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: AddressCLIP 是由中科院和阿里云联合开发的端到端图像地理定位模型,通过图像-文本对齐和地理匹配技术,实现街道级精度的定位,适用于城市管理、社交媒体、旅游导航等场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:通过图像实现街道级精度的地理定位,无需依赖 GPS。
  2. 技术:基于 CLIP 技术,结合图像-文本对齐和地理匹配损失函数。
  3. 应用:适用于城市管理、社交媒体、旅游导航等场景。

正文(附运行示例)

AddressCLIP 是什么

公众号: 蚝油菜花 - AddressCLIP

AddressCLIP 是由中科院自动化所和阿里云联合开发的端到端图像地理定位模型。它基于 CLIP 技术,能够通过一张照片实现街道级精度的定位,直接预测图像拍摄地点的可读文本地址。

与传统的图像地理定位方法不同,AddressCLIP 不依赖于复杂的 GPS 系统,而是通过图像-文本对齐和图像-地理匹配技术,将图像特征与地理空间距离相结合。模型在多个数据集上的表现优于现有的多模态模型,适用于社交媒体个性化推荐、多模态问答等场景。

AddressCLIP 的主要功能

  • 端到端图像地理定位:通过一张照片实现街道级精度的定位,无需依赖复杂的 GPS 系统。
  • 图像-地址文本对齐:通过改进 CLIP 的训练框架,引入多种损失函数,实现图像与地址文本的准确对齐。
  • 灵活的推理能力:能够处理不同形式的候选地址文本,具有较高的灵活性和泛化性。
  • 多模态结合潜力:可以与多模态大模型结合,提供更丰富的地址和地理信息相关问答服务。

AddressCLIP 的技术原理

  • 数据准备与预处理:通过多模态生成模型对街景图像进行语义文本标注,并与地址文本拼接,增强语义关联。
  • 改进的对比学习框架:引入图像-地址文本对比损失、图像-语义对比损失和图像-地理匹配损失,优化特征对齐。
  • 流形学习与地理匹配:基于地理距离监督特征空间中的距离,使模型学到的特征空间更加均匀。
  • 端到端的推理能力:通过候选地址集进行推理,灵活处理不同形式的地址文本。

如何运行 AddressCLIP

1. 环境配置

首先,确保安装了以下依赖:

python == 3.8
clip == 1.0
torch == 2.1.1
torchvision == 0.16.1
matplotlib
scikit-image
opencv

2. 数据集准备

下载并解压 Pittsburgh-250k 数据集,将其放置在 ./datasets/Pitts-IAL/ 文件夹中。

3. 训练与评估

训练和评估代码即将发布,请关注项目 GitHub 仓库获取最新更新。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
28天前
|
人工智能 自动驾驶 决策智能
DrivingDojo:中科院联合美团推出的自动驾驶数据集,包含视频片段、驾驶操作和驾驶知识
DrivingDojo是由中国科学院自动化研究所与美团无人车团队联合推出的交互式驾驶世界模型数据集,包含18,000个视频片段,涵盖驾驶操作、多智能体交互及开放世界驾驶知识。该数据集为自动驾驶模型的开发提供了坚实基础,并定义了动作指令跟随(AIF)基准,用于评估世界模型在执行动作控制的未来预测能力。
53 6
DrivingDojo:中科院联合美团推出的自动驾驶数据集,包含视频片段、驾驶操作和驾驶知识
|
3月前
|
机器学习/深度学习 人工智能 算法
【电商搜索】现代工业级电商搜索技术-中科院计算机研究所-生成型检索与多级相关性相结合
【电商搜索】现代工业级电商搜索技术-中科院计算机研究所-生成型检索与多级相关性相结合
41 1
|
存储 监控 计算机视觉
【检测+检索】一个模型让你不仅看得见也可以找得到,集检测与检索与一身的作品
【检测+检索】一个模型让你不仅看得见也可以找得到,集检测与检索与一身的作品
140 0
|
数据采集 数据处理 vr&ar
CVPR 2022 | 将X光图片用于垃圾分割,港中大(深圳)探索大规模智能垃圾分类
CVPR 2022 | 将X光图片用于垃圾分割,港中大(深圳)探索大规模智能垃圾分类
156 0
|
机器学习/深度学习 自然语言处理 算法
中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
183 0
|
机器学习/深度学习 算法 计算机视觉
让换脸无所遁形!南洋理工发布全球首个DeepFake篡改序列检测还原数据集|ECCV 2022
让换脸无所遁形!南洋理工发布全球首个DeepFake篡改序列检测还原数据集|ECCV 2022
169 0
|
机器学习/深度学习 自然语言处理 算法
中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
188 0
中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
|
新零售 数据采集 人工智能
百炼智能姚从磊:在互联网公开信息中「大海捞针」,为一亿机构人物建立「全息档案」
「全国各行业的销售大概有 8000 万人,他们每天都面临着同样的问题:我的客户在哪里,我如何能接触到我的客户。而百炼的思路是,利用互联网公开信息来解决这一问题,只不过需要非常深度的提取与推理。」百炼智能的 CTO 姚从磊这样介绍他们的产品所解决的问题。
362 0
百炼智能姚从磊:在互联网公开信息中「大海捞针」,为一亿机构人物建立「全息档案」
|
机器学习/深度学习 人工智能 达摩院
达摩院探访,机器视觉之发丝级抠图技能解析?
视觉技术作为人工智能之眼还在不断地认识世界,认识的事物从少到多,从模糊到清晰,从认识到理解。每一阶段都是一座里程碑,从人工智能流行之初,达摩院就对这个人工智能之眼有着深厚的兴趣。本次向大家介绍,达摩院之计算机视网膜修复工程。
1074 0
达摩院探访,机器视觉之发丝级抠图技能解析?
|
人工智能
分辨垃圾材质自动分类 支付宝升级垃圾分类AI回收箱
在今天召开的云栖大会现场,支付宝推出了智能垃圾箱,可对各类不同材质的饮料瓶自动识别、分类丢弃,为行业领先。
2155 0
分辨垃圾材质自动分类 支付宝升级垃圾分类AI回收箱

热门文章

最新文章