UAV-VLA: Vision-Language-Action System for Large Scale Aerial Mission Generation
本文提出UAV-VLA系统,通过结合大语言模型和视觉语言模型,实现基于自然语言指令的无人机航线自动生成。系统包含目标提取、目标搜索和动作生成三个模块,利用卫星图像和地理坐标数据,将文本指令转化为可执行的飞行计划。研究建立了包含30张高分辨率卫星图的评估基准UAV-VLPA-nano-30,实验表明系统生成速度比人工快6.5倍,虽然航线长度平均增加21.6%,但大幅提高了任务规划效率。该工作为语言驱
|
序号 |
属性 | 值 |
|---|---|---|
| 1 | 论文名称 | UAV-VLA:面向大规模空中任务生成的视觉-语言-动作系统 |
| 2 | 发表时间/位置 | 2025/HRI |
| 3 | Code | Sautenich/UAV-VLA: Official repo to UAV-VLA HRI 2025 paper |
| 4 | 创新点 |
自然语言生成航线:用户只需要用文字指令描述任务,无人机就能生成对应的飞行计划。 全球尺度的评估基准:UAV-VLPA-nano-30:提供 30 张高分辨率卫星图和人工规划航线,用于评估无人机系统的路径生成能力。 效率显著提升:系统生成的航线平均比人工规划长 21.6%,但生成速度快 6.5 倍。 语言驱动路径规划:首次尝试让无人机根据语言直接生成航线和动作序列,而不是手动规划。 |
| 5 | 引用量 | / |

一:提出问题
由于传统无人机操作依赖手动或固定航点规划,不够智能,也难以推广。而且现有的VLA和VLN的方法都需要大量的数据,很难在新环境或大尺度任务中泛化。
本文采用大模型实现zero-shot的无人能及任务规划,完成只需要自然语言指令和卫星图像就能完成飞行路径和动作序列。总的来说:
- 构建了一个大规模 VLA 系统,可以直接从文本请求生成路径和动作。
- benchmark:创建了评估基准 UAV-VLPA-nano-30。
- 系统性能达到接近人类操作水平。
二:解决方案
1:Data and Benchmark

为 了给UAV-VLA 系统提供标准化测试,检验无人机根据语言生成可执行的航路规划能力。从USGS EarthExplorer 开源卫星影像平台中获取30 张高分辨率卫星图像,每张图都有地理位置描述(纬度/经度),便于生成飞行计划。这是一个 真实世界的卫星图像集合,提供了无人机任务所需的视觉信息和地理坐标。

接下来生成飞行计划,通过有经验的无人机飞行操作员来构建,采用Mission Planner 软件,为四旋翼无人机生成一个飞行计划,让它覆盖紫色方框内的所有建筑物。高度不考虑。飞行计划是人工生成的 目标轨迹序列,作为 UAV-VLA 系统的参考,用于训练或评估无人机根据语言和卫星图像生成路径的能力。
2:METHODOLOGY
这篇文章提出了UAV-VLA系统,主要的核心思想就是利用大语言模型来理解指令,利用视觉语言模型在微信图像上识别目标,最终生成无人机可执行的动作序列。总共包含三个模块:Goal Extracting GPT、Object Search VLM、Actions Generation GPT:
1 Goal Extracting GPT(目标提取模块)


输入自然语言指令I,然后将这个指令输入到GPT中,将指令提取为一个目标集合G,其中每个g表示一个子目标。
2 Object Search VLM(目标搜索模块)


输入目标集合G,然后通过Molmo把每个目标再卫星图像上找到对应的位置,生成像素级坐标。之后,根据图像的元数据(也就是卫星图像本身附带的额外信息,用来描述图像的地理位置坐标信息,拍摄条件等)把像素坐标转化为真实地理坐标(经纬度)。是的无人机可以直接飞到这些实际地点。
其实就是利用VLM找到对应的像素点,然后转化为一个具体的坐标值。
3 Actions Generation GPT(动作生成模块)

图像坐标点经过元数据转换成真实世界坐标 Pg,使用动作生成模块结合 UAV 控制接口生成动作序列,Ai 表示无人机在第 i 个步骤要执行的动作(位置、姿态、速度等)。使用MAVProxy无人机接口来生成可执行的动作,可以让无人机按照指令完成飞行任务。
3: 评估指标(Evaluation Metrics)和 系统实验设置(System Setup and Procedure)

1 评估指标
本文主要关心两个方面,总飞行路径的长度和系统生成航线与人工航线的误差。
总飞行长度主要衡量生成的飞行路线总距离是多少,用于跟人工设计的航线相比,太长或太短都可能说明系统有问题
系统生成航线与人工航线的误差则用来衡量UAV-VLA系统生成的飞行路线有多准确。为了从不同角度全面评估系统生成航线的质量,使用三种方式计算生成航线与人工航线的误差:Sequential Method(一步步对齐系统生成点和人工点,容易产生累积误差),Dynamic Time Warping(不要求严格顺序,可以非线性对齐路径。主要衡量轨迹的形状相似性),K-Nearest Neighbors(系统每个点找最近的人工点,衡量整体位置精度,不关心点的顺序)
然后使用RMSE(均方根误差)误差计算公式


不写介绍了😅,直接贴个原文,公式不是很复杂。
三:实验


三种误差对比:由于误差大小体现了对齐方式对结果的影响,KNN 更宽松,只看位置,Sequential 最严格,对时间顺序敏感。

系统效率:UAV-VLA 不仅能够生成合理航线,还显著提高了效率。
四:总结
UAV-VLA 系统让无人机可以“听懂”自然语言指令并自己生成飞行任务,效率远超人工,同时覆盖的范围也更充分。未来目标是让无人机完全自主规划和执行任务,减少
自然语言生成航线:用户只需要用文字指令描述任务,无人机就能生成对应的飞行计划。
全球尺度的评估基准:UAV-VLPA-nano-30:提供 30 张高分辨率卫星图和人工规划航线,用于评估无人机系统的路径生成能力。
效率显著提升:系统生成的航线平均比人工规划长 21.6%,但生成速度快 6.5 倍。
语言驱动路径规划:首次尝试让无人机根据语言直接生成航线和动作序列,而不是手动规划。
更多推荐
所有评论(0)