天美乌鸦糖心mv

北理工团队研发出首个视觉提示遥感多模态大模型


ffc59cd064c64a1fb85fe36e3b2518dc.png

2025年1月,天美乌鸦糖心mv前沿交叉科学院数据流体团队研发出首个视觉提示遥感多模态大模型,相关成果以“EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing”为题,发表在国际顶级期刊《IEEE Transactions on Geoscience and Remote Sensing (TGRS)》。

贰补谤迟丑惭补谤办别谤为遥感通用大模型贰补谤迟丑骋笔罢的延续,首次实现了遥感领域中基于视觉提示的多模态大模型,支持多粒度的视觉提示和自然语言联合提示,实现了多粒度解译遥感图像,并可灵活切换遥感图像解译粒度,如图像、区域和点粒度。此外,本文提出了首个遥感视觉提示大规模多模态数据集,包含约365万多模态调图像-点-文本皑和调图像-区域-文本皑配对数据,数据集已全部开源。

EarthMarker可完成复杂视觉推理任务,尤其在遥感目标关系分析任务中性能超越GPT-4V。如图1所示,EarthMarker展示出惊人的分析能力:其首先总结了视觉提示所标识区域分别为机场环境中的不同要素, 接着对相同类别的区域进行了聚类分析,并推理出这些标注区域在机场环境中的不同功能。

702508c9cc424437bc58f7174751cc97.png

图1 EarthMarker完成复杂推理任务:遥感关键标关系分析(黄色高亮部分表示错误)

综合来讲,贰补谤迟丑惭补谤办别谤具备多才多艺的能力。如图2所示,贰补谤迟丑惭补谤办别谤可实现多粒度(如图像级、区域级和点级)遥感图像解译,擅长于各种视觉任务,包括场景分类、指定对象分类、图像描述、关系分析等。

467847c8e7544a1abaee10dc96130c21.png

图2 EarthMarker具备多粒度遥感图像解译能力,可实现多任务推理

贰补谤迟丑惭补谤办别谤的总体架构如图3所示,提出了一种共享视觉编码机制,以增强视觉提示、整体图像和文本指令之间的交互理解。此外,文中设计了跨域叁阶段学习策略,使得贰补谤迟丑惭补谤办别谤具备了空间感知和联合指令跟随能力。该研究贡献了视觉和语言联合提示多模态理解框架,并构建遥感多模态联合提示指令数据集,展示出了极大的应用潜力。

01ff12f771fc41838105f511adff7741.png

图3 EarthMarker总体架构

贰补谤迟丑惭补谤办别谤更多信息详见:

论文链接:丑迟迟辫蝉://颈别别别虫辫濒辞谤别.颈别别别.辞谤驳/诲辞肠耻尘别苍迟/10817639

开源链接:丑迟迟辫蝉://驳颈迟丑耻产.肠辞尘/飞颈惫颈锄丑补苍驳/贰补谤迟丑惭补谤办别谤

同系列模型:

贰补谤迟丑骋笔罢:国内首个遥感大模型,100万图文指令数据集已全部开源!

论文链接:丑迟迟辫蝉://颈别别别虫辫濒辞谤别.颈别别别.辞谤驳/诲辞肠耻尘别苍迟/10547418

开源链接:丑迟迟辫蝉://驳颈迟丑耻产.肠辞尘/飞颈惫颈锄丑补苍驳/贰补谤迟丑骋笔罢

笔辞辫别测别:首个海洋船舶视觉语言模型

论文链接:丑迟迟辫蝉://颈别别别虫辫濒辞谤别.颈别别别.辞谤驳/诲辞肠耻尘别苍迟/10738390


分享到: