UAV-VLA： Vision-Language-Action System for Large Scale Aerial Mission Generation

XIAOXIAOWU99-

1317人浏览 · 2025-10-31 17:15:51

XIAOXIAOWU99- · 2025-10-31 17:15:51 发布

序号	属性	值
1	论文名称	UAV-VLA：面向大规模空中任务生成的视觉-语言-动作系统
2	发表时间/位置	2025/HRI
3	Code	Sautenich/UAV-VLA: Official repo to UAV-VLA HRI 2025 paper
4	创新点	自然语言生成航线：用户只需要用文字指令描述任务，无人机就能生成对应的飞行计划。全球尺度的评估基准：UAV-VLPA-nano-30：提供 30 张高分辨率卫星图和人工规划航线，用于评估无人机系统的路径生成能力。效率显著提升：系统生成的航线平均比人工规划长 21.6%，但生成速度快 6.5 倍。语言驱动路径规划：首次尝试让无人机根据语言直接生成航线和动作序列，而不是手动规划。 But: 这篇论文显得很单薄，并没有实现一个完整的端到端无人机模型，并没有实现完整的自然语言+视觉输入---->到动作输出。更像一个工具来辅助用户生成航线。
5	引用量	/

一：提出问题

由于传统无人机操作依赖手动或固定航点规划，不够智能，也难以推广。而且现有的VLA和VLN的方法都需要大量的数据，很难在新环境或大尺度任务中泛化。

本文采用大模型实现zero-shot的无人能及任务规划，完成只需要自然语言指令和卫星图像就能完成飞行路径和动作序列。总的来说：

构建了一个大规模 VLA 系统，可以直接从文本请求生成路径和动作。
benchmark：创建了评估基准 UAV-VLPA-nano-30。
系统性能达到接近人类操作水平。

二：解决方案

1：Data and Benchmark

为了给UAV-VLA 系统提供标准化测试，检验无人机根据语言生成可执行的航路规划能力。从USGS EarthExplorer 开源卫星影像平台中获取30 张高分辨率卫星图像，每张图都有地理位置描述（纬度/经度），便于生成飞行计划。这是一个 真实世界的卫星图像集合，提供了无人机任务所需的视觉信息和地理坐标。

接下来生成飞行计划，通过有经验的无人机飞行操作员来构建，采用Mission Planner 软件，为四旋翼无人机生成一个飞行计划，让它覆盖紫色方框内的所有建筑物。高度不考虑。飞行计划是人工生成的 目标轨迹序列，作为 UAV-VLA 系统的参考，用于训练或评估无人机根据语言和卫星图像生成路径的能力。

2：METHODOLOGY

这篇文章提出了UAV-VLA系统，主要的核心思想就是利用大语言模型来理解指令，利用视觉语言模型在微信图像上识别目标，最终生成无人机可执行的动作序列。总共包含三个模块：Goal Extracting GPT、Object Search VLM、Actions Generation GPT：

1 Goal Extracting GPT（目标提取模块）

输入自然语言指令I，然后将这个指令输入到GPT中，将指令提取为一个目标集合G，其中每个g表示一个子目标。

2 Object Search VLM（目标搜索模块）

输入目标集合G，然后通过Molmo把每个目标再卫星图像上找到对应的位置，生成像素级坐标。之后，根据图像的元数据（也就是卫星图像本身附带的额外信息，用来描述图像的地理位置坐标信息，拍摄条件等）把像素坐标转化为真实地理坐标（经纬度）。是的无人机可以直接飞到这些实际地点。

其实就是利用VLM找到对应的像素点，然后转化为一个具体的坐标值。

3 Actions Generation GPT（动作生成模块）

图像坐标点经过元数据转换成真实世界坐标 Pg，使用动作生成模块结合 UAV 控制接口生成动作序列，Ai 表示无人机在第 i 个步骤要执行的动作（位置、姿态、速度等）。使用MAVProxy无人机接口来生成可执行的动作，可以让无人机按照指令完成飞行任务。

3: 评估指标（Evaluation Metrics）和系统实验设置（System Setup and Procedure）

1 评估指标

本文主要关心两个方面，总飞行路径的长度和系统生成航线与人工航线的误差。

总飞行长度主要衡量生成的飞行路线总距离是多少，用于跟人工设计的航线相比，太长或太短都可能说明系统有问题

系统生成航线与人工航线的误差则用来衡量UAV-VLA系统生成的飞行路线有多准确。为了从不同角度全面评估系统生成航线的质量，使用三种方式计算生成航线与人工航线的误差：Sequential Method（一步步对齐系统生成点和人工点，容易产生累积误差），Dynamic Time Warping（不要求严格顺序，可以非线性对齐路径。主要衡量轨迹的形状相似性），K-Nearest Neighbors（系统每个点找最近的人工点，衡量整体位置精度，不关心点的顺序）

然后使用RMSE（均方根误差）误差计算公式

不写介绍了😅，直接贴个原文，公式不是很复杂。

三：实验

三种误差对比：由于误差大小体现了对齐方式对结果的影响，KNN 更宽松，只看位置，Sequential 最严格，对时间顺序敏感。

系统效率：UAV-VLA 不仅能够生成合理航线，还显著提高了效率。

四：总结

UAV-VLA 系统让无人机可以“听懂”自然语言指令并自己生成飞行任务，效率远超人工，同时覆盖的范围也更充分。未来目标是让无人机完全自主规划和执行任务，减少

自然语言生成航线：用户只需要用文字指令描述任务，无人机就能生成对应的飞行计划。
全球尺度的评估基准：UAV-VLPA-nano-30：提供 30 张高分辨率卫星图和人工规划航线，用于评估无人机系统的路径生成能力。
效率显著提升：系统生成的航线平均比人工规划长 21.6%，但生成速度快 6.5 倍。
语言驱动路径规划：首次尝试让无人机根据语言直接生成航线和动作序列，而不是手动规划。

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合