十大具身智能机器人数据集汇总.docx

上传人:极速器 文档编号:592973 上传时间:2025-09-01 格式:DOCX 页数:15 大小:35.78KB
下载 相关 举报
十大具身智能机器人数据集汇总.docx_第1页
第1页 / 共15页
十大具身智能机器人数据集汇总.docx_第2页
第2页 / 共15页
十大具身智能机器人数据集汇总.docx_第3页
第3页 / 共15页
十大具身智能机器人数据集汇总.docx_第4页
第4页 / 共15页
十大具身智能机器人数据集汇总.docx_第5页
第5页 / 共15页
点击查看更多>>
资源描述

1、十大具身智能机器人数据集汇总数据集概览数据集名称发布时间发布机构(作者)任务种类与数量数据模态数据规模仿真顺实支持数据格式项目/论文链接AiBotWorld2024年12月智元机器人,上海Al实验室等移动式双臂机器人日常操作技能80余种RGB视觉、触觉、六维力、机器人状态等*100+*个机器人,*100万+*啕d真实数据(真机采集)统一采集流程(工业级质控)曲目主页论如(无)OpenX-Embodiment2023年10月GoogleDeepMindn11l构单臂、双臂、四22种形态527项技能,160,266个任善多源视觉、传感器观测和动作(统-RLDS格式)311个场景,*100万+*嗽迹

2、仿真+真实混合数据RLDS标准格式项目论文DROID2024年03月Stanford,UCBerkeIey等单臂机械臂(Franka7DoF)86种操作任叁多视RGB视频、机器人控制指令564个场景,76,000轨迹真实数据(跨13机构采集)统一硬件平台采集P页目论文RT-1/RT-22022年12月/2023年07月GoogleQMjQd移动式机器人(轮式底座+7DoF机械臂)境务关环任拾开居百如;家数I取等然器图自指机作一机、言、初相像语令人RT-I含13万轨迹(-111GB);预训练10亿图文对真实数据+网页图像自定义数据结构(开源代码)项目,论文BrigeDatav,z2023年09月

3、UCBerkeley等桌面6DoF机械臂(WicipwX)3目标图像或语言指令条件的多任务视I动三文8秀It楸作24种环境,共60,096轨迹真实数据(VR遥操作采集)HDF5数据集(开源提供)颐目论文RoboSet(RgboAgent)j2023年09月CMU,MetaAl桌面机械臂(FrankaEmika)厨房场景38项任务,12种技能四视RGB视频、语言指令、动作7,500轨迹用于训练(一共-28,5轨迹)真实数据(动觉+遥操作)HDF5序歹IJ结构P页目论文ARIO(AllRobotsInOne)2024年08月鹏城实验室等联盟多种机形态(主站双臂+S趣等)合技抓放移开作盖、操涵取置动

4、等能觉图点声文触RGB像不余心258场景,321,064任秀,303万轨迹仿真+真实遵合开源黝居ARlO统一格式标准P页目论文RoMINp2024年12月北京具能机器人创新中心等多实体:单臂、双臂、人形机等279项任务(6类技能类别)多幅Rqg-Ds磕状态、末端器信息、语言描述5.5万成功+5千失败轨迹;61类物体真实数据+部分仿真规范化数据结构项目论文RH20T2023年07月上海交通大学单臂机械臂(多相机+力传感器平台)147项操作任务(RLBench+MetaWorI力自定义)多视角视频、力反馈、音频、机器+人类示范视频F万+*k迹,数据量40TB真实数据(力回馈遥操作采集)自定义多模态

5、数据格式颐目论文EmbodiedCi2024年io月清华大学虚拟智能体(支持无人机/无人车等)室外城市导航、场景描述、多轮问答等基准任虚拟环境多模态:高逼真3D视觉、语义标签、文本指令等2.82.4km城市区域模型,2栋建筑,1条街道仿真环境(基于UE5引擎)提供PythonAPI和SDK官网论文AgiBotWorld数据集由智元机器人携手上海Al实验室等机构于2024年发布,是全球首个覆盖全域真实场景、采用全能硬件平台并具备全流程质量把控的百万级真实机器人数据集。该数据集面向机器人日常生活能力训练,涵盖了80余种家庭与工业场景下的操作技能,从抓取、放置、推拉等基础动作,到搅拌、折叠、熨烫等复

6、杂的双臂协作长程任务,几乎囊括日常生活所需的大部分动作类型。数据由100台移动双臂机器人(智元Genie-I等)在400011f真实场地中采集完成,场景包括家居、餐饮、工业、商超、办公五大类,涉及3000+种真实物品。数据模态与规模:AgiBotWorld提供多模态感知和动作数据,包括环绕布局的RGB相机画面、高精度触觉传感器数据、末端六轴力传感、机器人的关节状态和操作指令等。总计收录了来自100台机器人执行的100多万条示范轨迹(总时长约595小时,Alpha版本),数据量远超此前同类数据集(轨迹数约为Google的OpenX-Embodiment的10倍)。每条轨迹不仅包含机器人的动作序列

7、及传感器读数,还附有对应的人类自然语言指令,实现语言-视觉-动作三模态对齐。,仿真和结构:AgiBotWorId专注于真实世界数据,不包含仿真环境数据。其采集过程制定了统一规范和工业级质控,确保不同机器人采集的数据具有一致格式和标注标准。数据采用分层文件组织(划分场景和任务),并提供JS0N/HDF5格式的标注描述,方便跨平台使用和解析(通过社区协议开放获取)。项目主页提供了数据下载(需签署协议)和使用文档。开放获取:项目主页提供了数据集的概览和获取途径。目前AgiBotWorld已在GitHub和HuggingFace发布Alpha版本。作为国内开源的百万级真机数据集,它为研究者在机器人整理

8、分拣、家务助理等日常任务大模型训练提供了宝贵资源,对推动具身智能大模型的应用具有重要意义。2. OpenX-Embodiment(2023年)OpenX-Embodiment是GoogleDeepMind联合全球21家研究机构于2023年推出的开放、大规模标准化机器人学习数据集。该项目整合了60个已有机器人数据集的数据,将它们统一转换为谷歌RLDS(强化学习数据集标准)格式的“episode”序列。OpenX-Embodiment涵盖从单臂、双臂机械臂到四足机器人在内的22种不同形态机器人的数据,共计超过100万条机器人示范轨迹,分属311个环境场景、527项技能,细分为160,266个具体

9、任务。这是机器人领域迄今规模最大的多源多任务数据集之一,被誉为机器人研究的ImageNet时刻”。任务与技能:数据集中常见技能包括拾取(PiCking)、移动(moving)推动(PUShing)、放置(Plaeing)等基本操作,涉及的任务目标多样,如几何形状物体、容器、家具、电器、餐具、食物等。这种广泛的技能和目标分布,使数据集可以支持训练通用机器人策略。研究团队在此数据集上训练并开源了RT-I-X和RT-2-X模型,将原有单一数据集训练的模型性能分别提升了50%和300%o尤其RT-2-X结合视觉语言预训练,实现了视觉-语言-动作模型对新奇技能的显著泛化。,数据模态:由于整合数据源众多,

10、OPenX-Embodiment的数据模态因子涵盖视觉、力觉、事件序列等不同类型。每条数据以时序“episode”形式组织,包含传感器观测序列(如相机图像、深度或点云、机器人proprioception等)以及对应的机器人动作序列,采用统一的时间步长格式和元数据标注。谷歌提供的RLDS格式确保了各子数据的高度兼容和易解析性。仿真与现实:该数据集综合了真实机器人实验的数据和模拟环境生成的数据。例如,既包含Franka、KUKA等真实机械臂采集的演示,也整合了MetaWOrId、RLBenCh等模拟平台的数据。所有数据均被转换到统一空间,使仿真和真实的数据可以无缝混合用于训练这为研究者提供了同时利

11、用模拟和真实数据训练模型的机会,有助于提高策略的泛化能力。,获取与使用:OpenX-Embodiment通过GitHub开放了数据集转换工具和部分数据。论文中详细描述了数据格式和基准模型RT-X的性能。由于数据量巨大,完整数据需要通过与作者团队联系获取,但其开放标准和部分示例数据已极大降低了复现门槛。OpenX-Embodiment为跨硬件、跨任务的通用机器人大模型研究奠定了数据基础。3. DROID(2024年)DROID(DistributedRobotInteractionDataset)是由斯坦福大学、UC伯克利、丰田研究院等机构于2024年联合发布的大规模*“野外”机器人操作数据集*

12、O该数据集关注多场景、多任务、多操作者的丰富数据采集,旨在提升机器人策略的鲁棒性与泛化性。DROID包含由50位操作者在北美、亚洲和欧洲13家机构使用统一硬件采集的约76,000条机器人示范轨迹,总时长约350小时,覆盖86种日常操作任务和564个真实场景OPenreVieW.net。这些数据分布于家庭厨房、客厅、办公室、走廊、卧室、浴室、洗衣房等多样真实生活环境。采集硬件与任务:所有实验均使用相同的移动工作台硬件配置:包含一个FrankaPanda7-DoF机械臂、两个Zed2立体相机、腕载ZedMini相机,以及OCUIUSQuest2VR头显+手柄用于遥操作。通过VR控制器,人类操作者直

13、观地远程操作机械臂执行任务,从而保证每条演示的独特性。任务涵盖了厨房做饭、物品收纳、家具整理、清洁整理等日常家庭及办公情景下的操作技能,共86类具体任务,难度从简单的拾取物品到复杂的长序列动作皆有。数据模态与质量:DROlD的每条数据序列包含多视角的视频帧序列(来自8-10个全局RGB-D摄像头和机械臂腕上的摄像头)、操作者的动作控制指令(如末端轨迹)以及时间同步的六维力传感读数等,力求记录丰富的接触信息。止匕外,每条轨迹还提供对应人类示范视频,方便机器人学习模仿人类策略。相比此前数据集,DROID的数据在场景、技能广度上显著更丰富,经验证可令策略性能平均提升20%以上。开放资源:DROID数

14、据集及其基准方法已随论文公开。官网提供了数据下载、硬件搭建指南和评测代码。由于采用统一采集标准,研究者可直接在不同场景数据上训练单一模型,避免了硬件差异造成的数据分布不一致问题。DRolD的推出表明,通过大规模多场景实测数据,机器人操作策略的泛化水平和稳健性能够大幅提升,为发展具备“野外”适应能力的机器人奠定了基础。4. RT-I/RT-2(2022-2023年)RT-I(RoboticsTransformer1)与RT-2是Google在2022-2023年推出的一系列视觉-语言-动作(VLA)机器人大模型及数据集。RT-I发布于2022年,包含一个经过13个月实机采集的大规模多任务机器人数

15、据集,以及一个Transformer架构的多任务政策模型。RT-2于2023年推出,在RT-I真实机器人数据的基础上,融合了大规模的网络图像-文本数据,进一步提升了模型的认知和推理能力。,数据组成:RT-I数据集由谷歌EVerydayRobots团队的13台移动机械臂机器人采集,机器人具有7自由度机械臂、两指夹爪和自主移动底座。在17个月内,这些机器人在办公室和厨房等真实环境中累计收集了13万段人机交互片段(总计InGB)o每段包含机器人执行某项任务的摄像头画面序列,以及对应的人类指令文本标注。RT-2则引入了从网络筛选所得的约10亿对图像-文本数据(原始WebLI数据集包含100亿对,筛选后

16、保留10%)。通过将预训练的视觉语言知识融入机器人控制,RT-2实现了从互联网上习得常识来辅助物体操作。 任务与场景:RT-1/2的数据主要来自办公室、厨房等室内场景,涉及家具、电器、食品、文具等700余种物体。机器人需要完成从基础的pick-place(拾取和放置)到更复杂的擦拭(WiPing)、*组装(assembling)*等操作。示例任务包括:打开和关闭抽屉、操作微波炉门、抓取细长物体、拉扯餐巾纸、打开罐子等等。这些任务难度不等、步骤多样,考验了模型对环境的理解和长序列决策能力。 模型性能:得益于大规模跨模态预训练,RT-2模型在未知场景下的任务成功率达到62%,较RT-1的大约32%

17、有显著提升。相较纯视觉预训练的基线(如VC-l、R3M)和仅用视觉模型识别的传统方法,RT-2在开放环境下展现出更强的语义理解和决策能力。这证明了将视觉语言模型与机器人行为相结合的可行性:预训练的视觉语言模型经过少量机器人数据微调,即可直接用于控制真实机器人完成复杂任务。 开源情况:谷歌研究团队开源了RT-I的数据集子集及模型代码,并提供了RT-2的模型推理demo。研究者可以通过GitHUb获取RT-I模型和数据接口。完整的RT-I机器人数据未全部公开,但RT-2论文提供了丰富的实验细节。RTT/2系列工作开创了视觉-语言-动作模型的新范式,展示了预训练大模型知识在机器人控制上的直接迁移,为

18、后续融合大模型与机器人控制的研究奠定了基础。5. BridgeDataV2(2023年)BridgeDataV2是由UC伯克利、斯坦福大学、GoogleDeepMind和CMU等机构在2023年发布的大型多样化机器人操作行为数据集。该数据集旨在推动可扩展的机器人学习研究,特别设计为可与开放词汇、多任务学习的方法兼容。BridgeDataV2的任务可通过目标图像或自然语言指令来描述,训练得到的技能能够推广到新物体、新环境和新的机器人架构。,场景与任务:BridgeDataV2包含24种不同环境,划分为4大类场景。其中大部分数据来自7种玩具厨房环境(带有不同组合的水槽、炉灶、微波炉),其余环境包括

19、多种桌面、独立的玩具水槽、玩具洗衣机等。数据主要涵盖基本的物体操作任务(如拾取和放置、推动、清扫),部分涉及环境交互(如开关门和抽屉),以及少量复杂任务(如堆叠积木、折叠布料、清扫颗粒物)。这些任务丰富了机器人在厨房及日常场景中的技能多样性。数据模态与规模:数据通过人类使用VR控制器遥操作WidoWX250六自由度机械臂收集,控制频率5Hz,平均每条轨迹约38个时步。传感器设置包括固定在机器人上方斜视角的RGB-D相机、两个随机姿态的RGB相机,以及安装在机械臂手腕上的RGB相机,图像分辨率640X480OBridgeDataV2总计包含60,096条轨迹,其中50,365条为远程遥操作示范,

20、9,731条为采用脚本策略采集的执行数据。数据采用分层结构组织,并提供每条轨迹对应的起始观测、目标状态(图像或文字)和动作序列,以方便训练条件策略模型。开放获取:BridgeDataV2已开放下载,其项目主页提供了数据集结构说明和使用指南。由于数据量较大,官方以分块文件形式提供RGB-D序列和动作标签。研究者可据此训练机器人在开放词汇指令下执行多任务的模型。该数据集在文献中被用于验证如RoboChef等模型的性能,为视觉-语言条件的多任务学习提供了重要基准。6. RoboSet(2023年)RObOSet数据集是CMU与MetaAl(FAIR)合作在2023年推出的大规模真实世界多任务机器人数

21、据集,用于训练通用机器人代理(RoboAgent)。该数据收集自厨房环境中一系列日常家庭活动,包括泡茶、烘焙等场景,提供了跨任务学习和泛化所需的丰富示范。RoboSet由动觉示教(人手引导机器人)和远程遥操作示范组成,每条示范涵盖一个多步骤活动,轨迹中包含四个不同视角的相机画面,并在每次示范间引入场景随机变化。任务与技能:RoboSet定义了38项日常厨房任务,归纳为12种操作技能类型。这些任务包括如沏茶过程中的取水壶、加水、放茶包,烘焙中的加料、搅拌、烤箱操作等,将复杂活动拆解为一系列子任务进行示范采集。技能类别涵盖基本操作(抓取、放置)、容器操作、工具使用等,多任务活动的范畴使模型需要学习

22、在长序列任务中衔接不同技能。数据中特别强调技能之间的顺序逻辑关系,如打开容器后取物,再将物体放入另一容器等连贯操作。数据规模与模态:RoboSet共收集了约28,500条示范轨迹(其中9,500条通过VR遥操作,19,000条通过动觉示教)。仅使用其中约7,500条轨迹进行训练,研究者便成功训练出可以执行38项任务的通用RobOAgent模型。数据模态包括每帧4路不同视角的RGB视频(第三人称全景、俯视等固定角度,以及随机械臂运动的第一人称视角),每条示范都有对应的自然语言任务说明(指令或目标描述),以及连续的机器人动作序列和执行过程中关键状态标记。多视角多模态数据提高了模型对视角变化的鲁棒性

23、开放获取:RoboSet数据和RoboAgent模型在GitHub平台开源。数据以HDF5文件发布,组织为逐轨迹存储的结构,内含传感器数据和注释。开发者可以方便地载入数据进行训练或评估。RoboSet验证了小数据高效训练通用机器人的可能性,对比RT-I所需的数据规模大幅降低,为后续研究提供了新的思路和参考基准。7. ARIO(2024年)ARIO(AllRobotsInOne)数据集是由鹏城实验室联合松灵机器人、中山大学、南方科大、香港大学等于2024年发起的具身智能数据开源联盟项目。ARIO的目标是建立统一的数据格式标准,将不同形态、来源的机器人数据集成在一起,支持训练多机体通用型的具身

24、智能模型。为此,鹏城实验室团队制定了一套适用于多形态机器人、多传感器的ARIO数据标准,能够记录不同机器人的控制参数,包含清晰的层次结构,并对不同比率的数据流对齐同步。数据来源与规模:ARlO数据集融合了三大来源的数据:(1)在真实环境中布置场景和任务,由人类远程操作或示教不同类型机器人采集;(2)基于MUJOCo、Habitat等仿真引擎构建虚拟场景和物体,由仿真机器人执行生成数据;(3)将当前已开源的部分具身智能数据集(如OPenX-EmbodimentRTT等)转换为ARlO标准格式并纳入合集。截至2024年中,ARlO共包含258个场景,321,064项任务,3,033,188条示范轨

25、迹,数据总量空前。数据模态非常丰富,涵盖RGB相机图像、3D点云、环境声音、文字描述、触觉传感等。例如,对于操作任务,既记录多角度视觉视频,也记录力传感、触摸反馈,以及对应的自然语言任务指令和注解。场景与技能:ARIO的数据场景广泛,既有桌面工作台、家庭房间、厨房、走廊等室内环境,也包含开放户外、多房间组合等复杂环境。任务技能覆盖机器人常见操作,如抓取(PiCk)、放置(place/put)移动(move)、打开(OPen)和抓握(grasp)等。在真实采集部分,团队基于松灵CobotMagic主从式双臂机器人平台设计了30多种代表任务,按难度分为简单/中等/困难三级,并通过增加干扰物、随机改

26、变初始设置等方式增强数据多样性。最终仅此部分就获得了3000余条包含3路RGB-D视频的示范轨迹。仿真和外部集成数据则进一步扩充了机器人类型和任务种类,确保数据集的多机体、多任务、多模态覆盖。标准与开放:ARlo项目的突出贡献在于提出了一个通用的具身智能数据格式标准。ARIO格式以层次化JSON定义了机器人的本体参数、传感器数据流、时间戳同步等规范,使不同来源、不同硬件的数据可以互操作。此外,ARIO数据集在鹏城实验室的OPenl开放平台上发布,研究者可免费申请获取。通过ARl0,用户能够方便地将多种数据集组合训练一个模型,从而探索跨形态机器人大模型的可行性。该联盟的成立也标志着国内具身智能社

27、区在数据共建和标准制定上的一次重要尝试,对推动业内数据共享和平台互通具有深远意义。8. RoboMIND(2024年)RoboMIND(RobotManipulationIntelligenceNormativeData)是由“国家/地方共建具身智能机器人创新中心”牵头,北京大学、北京智源研究院等联合于2024年底发布的多机体具身智能数据集与基准。该数据集通过人类远程操作多种机器人收集,涵盖了全面的机器人感知和动作信息,包括多视角RGB-D视频、本体感觉(PrOPriOCePtiOn)状态、末端执行器细节以及对应的语言任务描述。RobOMlND不仅发布了55,000条成功操作的示范轨迹,还特别

28、提供了5,000条失败案例轨迹,用于研究机器人失败的原因和改进策略。通过学习这些失败经验,机器人模型能够提升鲁棒性一一这一思路类似于在人类反馈基础上的强化学习(RLHF)0任务与场景:RoboMIND数据集覆盖五大日常场景:家庭、工业、厨房、办公室和零售环境。包含的物体种类超过60种,任务共计279项,划分为六大类型:(1)关节操作(ArticulatedManiPUIatiOn,如开门/关灯等涉及带钱链/关节物体的操作);(2)协调操作(COOrdinatedManiPUlatiOn,需要双臂协同的任务);(3)基本操作(BasicManipulation,如抓取、握持、放置等基础技能);(

29、4)物体交互(ObjeCtlnteraCtiOn,同时与多个物体交互,如将一物体推过另一物体);(5)精细操作(PrecisionManipulation,需高精度的操作,如倒液体、插入电池);(6)场景理解(SceneUnderstanding,需理解复杂场景才能完成,如按指令关闭特定抽屉、分类放置不同颜色的积木入对应盒子)。这些任务类型全面考察了机器人在物理交互和语义理解上的能力。多机器人形态:RoboMIND的一个显著特点是包含多种机器人本体的数据。具体而言,数据集整合了来自4类机器人的示范:19,222条轨迹来自FrankaEmikaPanda单臂机器人,9,686条来自天工(Tien

30、Kung)全尺寸人形机器人,8,030条来自AgileXCobotMagicV2.0双臂协作机器人平台,6,911条来自优傲UR5e机械臂,另外还有11,783条来自模拟环境的数据。如此多样的机器人类型使得模型必须具备跨不同动力学和机械结构的泛化能力,也为研究多机体统一策略提供了宝贵的数据支撑。数据模态与结构:每条RObOMIND轨迹都同步记录了多路信息:机器人在执行任务过程中的第一人称和第三人称RGB-D视频、机器人的各关节角度和末端姿态等本体感觉状态、末端执行器(夹爪等)的力/触觉反馈,以及该任务对应的自然语言描述或指令。所有数据经过时间戳对齐,保证视觉、动作、语言之间的一致性。另外,失败

31、轨迹标注了失败原因类别,可用于有监督学习机器人何时可能失败。数据采用分层JSoN和二进制文件相结合的形式开放,方便检索和分析。官网提供了数据下载申请和基于该数据集的模型Baseline,以推动社区对多模态、多机体机器人大模型的研究。9. RH20T(2023年)RH20T(RichHigh-contactHuman-RobotHeritage20Tasks)是上海交通大学于2023年发布的一个强调丰富接触、一次示范学习的大规模机器人数据集。其目标在于挖掘机器人通过多模态感知泛化数百种技能的潜力。为此,RH20T收集了超过11万段机械臂操作序列,涵盖真实世界中各种技能、场景、机器人配置和摄像头视

32、角。每段序列不仅包含机器人的视觉、力觉、音频和动作数据,还特别提供了对应的人类演示视频,使机器人可以对照人类示范进行模仿学习。这一设计旨在支持单次人类示范、一键模仿(one-shotimitation)的研究。任务来源与组成:RH20T的任务集合非常广泛。研究者选取TRLBench模拟基准中的48个典型任务,MetaWorId中的29个任务,并额外设计了70个现实中机器人常遇到且可实现的新任务。总计形成约147项独立任务,涵盖了厨房操作、工具使用、物体搬运、整理清洁等方方面面。每项任务都包含大量不同场景、不同物体的重复试验,使模型能够学习到任务的不变性和变化因素。值得注意的是,每个任务在数据集

33、中都对应数以百计的人类示范视频-机器人操作轨迹对(整体数据对超过百万对),以便研究跨模态(视频-动作)的行为克隆和元学习。采集平台与模态:与许多使用3D鼠标、手机等简易遥操作方式的数据不同,RH20T采用高沉浸感力反馈的遥操作界面来收集高接触丰富度的数据。每套采集平台包括配备末端力/力矩传感器的机械臂(如Franka),夹持器、2个手持摄像头、8-10个固定全局RGB-D摄像头和2个麦克风。人类操作者使用触觉力反馈设备和脚踏板精细控制机器人执行任务,在碰撞、施力等过程中能获得实时反馈,从而保证演示动作的精确和自然。因此,数据模态涵盖:多视角RGB-D视频(记录环境和细节)、六维力传感数据(记录

34、机器人与物体/环境的交互力)、双声道音频(记录操作声音,如摩擦、碰撞声)以及机器人的关节角度和控制指令序列。止匕外,每条数据都关联一个人类真人示范的视频(从第三视角拍摄人类完成相应任务),为模仿学习提供直观参考。开放与影响:RH20T数据集伴随论文在2023年7月公开。由于数据量巨大(原始数据总大小超过40TB),作者团队提供了任务子集及数据采样版本供下载,并开放了数据采集接口代码和示范视频。RH20T在全球率先强调通过一次人类示范来泛化学习,对提升机器人学习效率和降低示范成本有重要意义。其丰富的多模态、高互动数据为研究机器人操作的大模型、模仿学习、元学习等课题提供了宝贵资源。10. Embo

35、diedCity(2024年)EmbodiedCity是由清华大学FIB实验室于2024年发布的首个基于真实城市环境的具身智能基准平台。不同于此前主要聚焦室内的模拟环境,EmbOdiedCity利用虚幻引擎5(UE5)构建了一个高度动态、开放的城市级3D模拟环境,基于北京市国贸商圈的真实布局,融合真实人流车流数据,逼真再现了户外城市环境的复杂性。该平台为EnlbOdiedAl研究提供了一个接近现实世界的测试场景,被视为具身智能研究从室内走向室外的重要里程碑。,环境与任务:EmbodiedCity模拟环境覆盖面积约2.8X2.4公里,包括约200栋建筑(办公楼、商场、小区等)和100条街道(含交

36、叉路口、红绿灯、路标等),还有丰富的城市元素如树木、公交站、路灯等。动态环境中,行人和车辆基于真实交通模式进行模拟运动,营造繁忙的城市街景。在此环境上,平台设置了一系列典型任务来评估智能体能力,包括:(1)跨模态场景理解:智能体需观察周围街景,从多角度视觉输入生成准确的文本描述;(2)多轮对话问答:智能体与用户就环境进行互动问答,保持上下文逻辑,回答关于周围场景的问题;(3)具身导航:智能体依据自然语言指令,在复杂城市环境中进行导航规划与实时避障。这些任务全面考验了智能体的视觉理解、语言交流和决策控制能力。模拟与真实结合:虽然EnIbOdiedCity本身是仿真环境,但其构建严格参考了现实世界

37、的数据:利用BaidU地图街景和高德地图信息手工建模了各建筑,道路布局和交通流量依据真实监控数据进行校准。因此,模拟环境与真实城市在结构和统计特征上高度一致。平台同时支持无人机视角和无人车视角两类智能体一一例如,研究者可部署一个轮式移动机器人在街道上导航,或一个空中无人机在城市上空巡航。这种多智能体支持使得EmbodiedCity成为一个通用的城市级具身智能测试平台。,接口与开放:清华团队提供了EmbodiedCity的PythonSDK和在线APl服务。使用者可以在官方网站申请接入在线模拟器,通过APl控制智能体并获取传感器数据,也可下载模拟器在本地运行。平台还开放了若干基准数据集和示例:例如场景描述任务的数据集、导航任务的评测基准等。这些数据集详细标注了任务要求、环境初始状态、目标输出等,可直接用于模型训练和评测。EmbodiedCity的出现,填补了城市尺度具身智能研究的空白,为自动驾驶、智能城市机器人、城市级多智能体协作等方向的研究提供了宝贵的试验平台。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 数据结构与算法

宁ICP备18001539号-1