序号

属性
1 论文名称 UAV-VLA:面向大规模空中任务生成的视觉-语言-动作系统
2 发表时间/位置 2025/HRI
3 Code Sautenich/UAV-VLA: Official repo to UAV-VLA HRI 2025 paper
4 创新点

自然语言生成航线:用户只需要用文字指令描述任务,无人机就能生成对应的飞行计划。

全球尺度的评估基准:UAV-VLPA-nano-30:提供 30 张高分辨率卫星图和人工规划航线,用于评估无人机系统的路径生成能力。

效率显著提升:系统生成的航线平均比人工规划长 21.6%,但生成速度快 6.5 倍

语言驱动路径规划:首次尝试让无人机根据语言直接生成航线和动作序列,而不是手动规划。
But: 这篇论文显得很单薄,并没有实现一个完整的端到端无人机模型,并没有实现完整的自然语言+视觉输入---->到动作输出。更像一个工具来辅助用户生成航线。

5 引用量 /

一:提出问题

由于传统无人机操作依赖手动或固定航点规划,不够智能,也难以推广。而且现有的VLA和VLN的方法都需要大量的数据,很难在新环境或大尺度任务中泛化。

本文采用大模型实现zero-shot的无人能及任务规划,完成只需要自然语言指令和卫星图像就能完成飞行路径和动作序列。总的来说:

  1. 构建了一个大规模 VLA 系统,可以直接从文本请求生成路径和动作。
  2. benchmark:创建了评估基准 UAV-VLPA-nano-30。
  3. 系统性能达到接近人类操作水平。

二:解决方案

1:Data and Benchmark

为 了给UAV-VLA 系统提供标准化测试,检验无人机根据语言生成可执行的航路规划能力。从USGS EarthExplorer 开源卫星影像平台中获取30 张高分辨率卫星图像,每张图都有地理位置描述(纬度/经度),便于生成飞行计划。这是一个 真实世界的卫星图像集合,提供了无人机任务所需的视觉信息和地理坐标。

接下来生成飞行计划,通过有经验的无人机飞行操作员来构建,采用Mission Planner 软件,为四旋翼无人机生成一个飞行计划,让它覆盖紫色方框内的所有建筑物。高度不考虑。飞行计划是人工生成的 目标轨迹序列,作为 UAV-VLA 系统的参考,用于训练或评估无人机根据语言和卫星图像生成路径的能力。

2:METHODOLOGY

这篇文章提出了UAV-VLA系统,主要的核心思想就是利用大语言模型来理解指令,利用视觉语言模型在微信图像上识别目标,最终生成无人机可执行的动作序列。总共包含三个模块:Goal Extracting GPT、Object Search VLM、Actions Generation GPT:

1 Goal Extracting GPT(目标提取模块)

输入自然语言指令I,然后将这个指令输入到GPT中,将指令提取为一个目标集合G,其中每个g表示一个子目标。

2 Object Search VLM(目标搜索模块)

输入目标集合G,然后通过Molmo把每个目标再卫星图像上找到对应的位置,生成像素级坐标。之后,根据图像的元数据(也就是卫星图像本身附带的额外信息,用来描述图像的地理位置坐标信息,拍摄条件等)把像素坐标转化为真实地理坐标(经纬度)。是的无人机可以直接飞到这些实际地点。

其实就是利用VLM找到对应的像素点,然后转化为一个具体的坐标值。

3 Actions Generation GPT(动作生成模块)

图像坐标点经过元数据转换成真实世界坐标 Pg,使用动作生成模块结合 UAV 控制接口生成动作序列,Ai​ 表示无人机在第 i 个步骤要执行的动作(位置、姿态、速度等)。使用MAVProxy无人机接口来生成可执行的动作,可以让无人机按照指令完成飞行任务。

3: 评估指标(Evaluation Metrics)和 系统实验设置(System Setup and Procedure)

1 评估指标

本文主要关心两个方面,总飞行路径的长度和系统生成航线与人工航线的误差。

总飞行长度主要衡量生成的飞行路线总距离是多少,用于跟人工设计的航线相比,太长或太短都可能说明系统有问题

系统生成航线与人工航线的误差则用来衡量UAV-VLA系统生成的飞行路线有多准确。为了从不同角度全面评估系统生成航线的质量,使用三种方式计算生成航线与人工航线的误差:Sequential Method(一步步对齐系统生成点和人工点,容易产生累积误差),Dynamic Time Warping(不要求严格顺序,可以非线性对齐路径。主要衡量轨迹的形状相似性),K-Nearest Neighbors(系统每个点找最近的人工点,衡量整体位置精度,不关心点的顺序)

然后使用RMSE(均方根误差)误差计算公式

不写介绍了😅,直接贴个原文,公式不是很复杂。

三:实验

三种误差对比:由于误差大小体现了对齐方式对结果的影响,KNN 更宽松,只看位置,Sequential 最严格,对时间顺序敏感。

系统效率:UAV-VLA 不仅能够生成合理航线,还显著提高了效率。

四:总结

UAV-VLA 系统让无人机可以“听懂”自然语言指令并自己生成飞行任务,效率远超人工,同时覆盖的范围也更充分。未来目标是让无人机完全自主规划和执行任务,减少

自然语言生成航线:用户只需要用文字指令描述任务,无人机就能生成对应的飞行计划。
全球尺度的评估基准:UAV-VLPA-nano-30:提供 30 张高分辨率卫星图和人工规划航线,用于评估无人机系统的路径生成能力。
效率显著提升:系统生成的航线平均比人工规划长 21.6%,但生成速度快 6.5 倍
语言驱动路径规划:首次尝试让无人机根据语言直接生成航线和动作序列,而不是手动规划。

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐