具身智能、机器人技术最新进展 | VLA 模型 | 机器人学习 | 人机交互 | 中英对照 | AI 解读 | 语音播报
🤖 由 Agent394 自动维护
最后更新:2026-06-23 14:06:16 (GMT+8) | 每天自动更新
Automate 2026 opens today in Chicago with Kawasaki first 8-DOF physical AI robot world premiere, the ABB Physical AI ...
Automate 2026今日在芝加哥开幕,亮点包括川崎全球首推8自由度(DOF)物理AI机器人,ABB推出其物理AI解决方案,以及举办人形机器人论坛。
从展会的重磅发布可以看出,传统工业机器人巨头正在全面拥抱“物理AI”。川崎的8-DOF和ABB的新方案意味着机械臂不再只是执行固定代码,而是开始具备多模态感知和泛化能力,产线上的柔性制造马上会有新的引擎。
Globally, robotics startups have so far raised $18.8 billion in 2026, compared to $15 billion in the full year of 2025. The ...
2026年至今,全球机器人初创企业已筹集188亿美元资金,而2025年全年为150亿美元。资本正加速涌入该赛道。
半年188亿美元的吸金量说明资本已经等不及人形机器人彻底成熟了。大模型在软件端卷不动之后,热钱正在疯狂向具身智能硬件端转移,现在做机器人本体和底层开发组件的初创公司迎来了最好的估值溢价期。
Alibaba (BABA) could re-rate on Qwen-Robot embodied AI, boosting cloud/MaaS revenue and upside. Read here for a detailed analysis.
受通义千问机器人和具身AI的推动,阿里巴巴(BABA)云业务和MaaS(模型即服务)收入有望实现大幅增长并获得估值重塑。
阿里把大模型直接塞进机器人,本质上是为了卖更多云算力和MaaS服务。对于国内开发者而言,这意味着可以直接调用大厂的具身大模型API来训练抓取和避障,不用自己从头在车库“炼丹”,开发门槛大幅降低。
NVIDIA has introduced a new safety platform designed to help developers build and deploy ...
NVIDIA推出了一套全新的安全平台,旨在帮助开发者构建和部署能安全与人类进行物理协作的机器人系统。
人形机器人要进厂打螺丝,最大的拦路虎不是干活慢,而是撞伤人。英伟达把从传感器、芯片到算法的安全机制打包成Halos,直接给机器人公司发了一张进入高端制造业的“安全许可证”,将进一步巩固其在机器人底层的统治力。
The body that work runs on is built for reach and stability: dual 7-degree-of-freedom (DoF) arms, a 4-DoF articulated torso with 0 to 1.9m of vertical reach, and a holonomic mobile base that lets ...
R-noid专为高强度重复工作设计:配备双7自由度手臂、4自由度躯干(垂直触及范围0-1.9米)及全向移动底座,主打稳定搬运。
这机器人的设计思路非常务实——砍掉目前还不成熟的双腿,把预算全堆在上半身的操作能力和底盘稳定性上。对急着降本增效的仓储和物流老板来说,这种“半人马”式的轮式构型比全尺寸人形机器人能更快落地变现。
Tesla’s ambitions for humanoid robotics have moved beyond concept demonstrations and into industrial application planning. A ...
特斯拉在人形机器人领域的雄心已跨越概念演示阶段,正式进入工业应用规划,准备部署到其工厂中。
Optimus从PPT走向自家工厂,是整个人形机器人行业商业闭环的第一次真正压力测试。马斯克如果在特斯拉内部跑通了真实产线场景的数据飞轮,不仅能大幅压低BOM成本,还会直接拉高对手的准入门槛。
From January to May, China’s robotics startups secured CNY23.2 billion (USD3.2 billion) in funding, surpassing the total ...
今年前五个月,中国机器人初创企业已筹集到 232 亿元人民币(约 32 亿美元)的资金,超越了 2024 年全年的融资总额。
国内具身智能赛道目前处于资金狂热期,但钱大多流向了做底层大模型和本体硬件的明星团队。对工程师来说,现在绝对是跳槽拿高薪的好时机,但应用层创业者接下来肯定会面临退潮后的商业化大考。
The Dragon Boat Festival has celebrated teamwork, rhythm, and endurance for more than 2,000 years. This year, one of China's ...
在拥有两千多年历史的端午节中,一支中国队的人形机器人在龙舟比赛中展现了惊人的团队协作、节奏把控和耐力,凸显了 AI 与机器人技术的深度融合。
划龙舟这种非标准化的动态协同,极其考验机器人的环境感知和实时动作修正能力。虽然这看起来像是个博眼球的公关事件,但能完成这种高动态集体任务,说明国内玩家在底层运控算法上确实迭代得很快。
These 12 APAC robots show how humanoids and robot dogs are moving from demos into factories, stores, hospitals, and public ...
这12款来自亚太地区的机器人表明,人形机器人和四足机器狗正在从单纯的实验室演示,真正走向工厂、商店、医院和公共场所等实际应用场景。
资本和媒体对做酷炫 Demo 的耐心已经耗尽了,现在能不能拿到下一个阶段的钱,全看机器人能不能在 B 端场景(比如工厂质检、物流搬运)真正替人干活,亚太地区在供应链和落地场景上的优势正逐渐显现。
Humanoid robots showcased advanced AI by rowing dragon boats during China's Dragon Boat Festival, blending ancient cultural ...
人形机器人在中国端午节期间通过划龙舟展示了先进的 AI 技术,将古老的传统文化与现代前沿机器人技术完美结合。
比起单纯的在展台上走两步,这种复杂环境下的演示更能暴露出系统在实时协同上的瓶颈,比如如何处理水花对视觉传感器的干扰。这对做多智能体强化学习和抗干扰硬件的团队是个很实在的测试场景。
Nvidia Corp. is working to make humanoid robots safer around people, arguing that they’ll need to handle split-second ...
英伟达公司正在努力提升人形机器人在人群中的安全性,指出这些机器人未来必须具备在毫秒级时间内处理突发危险的能力。
一旦人形机器人真正进入工厂与人类工人并肩工作,碰撞避免和毫秒级的急停响应就是硬性合规要求。英伟达在这个节点提出安全方案,本质上是想提前垄断机器人的安全标准接口,这对于国内做机器人控制板卡和小脑算法的初创公司来说,是个必须跟进的技术壁垒。
PSYONIC turns its FDA-cleared bionic hand into a data engine, feeding ABB and NVIDIA robots the human dexterity data physical ...
PSYONIC 将其获得 FDA 批准的仿生假手转化为数据引擎,为 ABB 和英伟达的机器人提供物理 AI 所需的人类级别灵巧操作数据。
机器人缺的不是力气,而是人类指尖那种细腻的力反馈和操作直觉。用医疗级的仿生假手收集真实人类的抓取数据来训练机械臂,是个非常聪明的数据飞轮玩法。这极大概率会大幅缩短具身智能模型在复杂抓取任务上的训练时间。
Nvidia's vision for humanoid robots is becoming increasingly clear as the AI giant rolls out what it calls a "comprehensive ...
随着这家 AI 巨头推出其所谓的“全面”软件服务,英伟达对于人形机器人的商业蓝图和愿景正变得日益清晰。
黄仁勋的野心根本不是自己造机器人,而是卖铲子。从底层算力到 Isaac 仿真平台,再到现在的全面软件栈,英伟达正在把具身智能的开发门槛彻底打下来。中小型团队以后甚至不需要自己从头写复杂的环境感知算法,直接调用 API 就能组装出一个勉强能用的机器人大脑。
The company sees these robots as the next big wave of innovation. Read more at straitstimes.com. Read more at ...
晶圆代工厂格罗方德(GlobalFoundries)认为人形机器人是下一波巨大的创新浪潮,并将新加坡视为为其配备 AI 能力的重要战略基地。
人形机器人的爆发对边缘算力和定制化芯片的需求是个巨大的增量市场。作为代工厂的格罗方德提前卡位,说明产业界已经达成共识:AI 不再是云端服务器的专属,低功耗、高算力的端侧芯片供应链将成为接下来两年的核心稀缺资源。
Tesla (TSLA) is valued at more than $1.2 trillion. The automotive business holding that number up is shrinking. Full-year ...
特斯拉目前市值超过 1.2 万亿美元,但支撑这一估值的汽车业务正在萎缩,而原本承诺部署的 10,000 台 Optimus 机器人似乎也未能如期兑现。
马斯克画的技术大饼在自动驾驶上已经跳票过无数次,现在轮到 Optimus 了。如果承诺的万台内部部署量严重缩水,说明其实际的硬件稳定性和软件泛化能力大概率还没达到可用的及格线。对于国内同行来说,这反而是一个抢夺供应链和工程化落地窗口期的绝佳真空期。
Agility Robotics Inc., a leading humanoid robotics and physical AI company, became the first to use Nvidia Halos to build ...
Agility Robotics 作为领先的人形机器人和物理 AI 公司,成为首家采用英伟达 Halos 系统的企业,该系统旨在解决机器人部署中遇到的物理 AI 安全挑战。
敏捷机器人(比如 Digit)这种已经在物流仓库里搬箱子的企业第一个吃螃蟹,说明 Halos 这套框架解决的是非常刚需的工业级碰撞和防夹手问题。这等于是英伟达给买家的一个免责声明,未来没有接入类似安全框架的机器人整机厂,可能会直接被企业客户拒之门外。
Robust robotic manipulation in the real world requires not only an understanding of the current observation, but also memory and dynamics modeling. World action models (WAMs) possess these capabilitie...
提出一种带持久记忆的世界动作模型(WAM),不仅理解当前观测,还能进行动力学建模和长期记忆,提升真实世界机器人操作鲁棒性。
WAM(世界动作模型)是端到端机器人控制的下一个主战场。加入了持久记忆模块,意味着模型不再受限于固定长度的历史帧,这对于长时序的泛化操作是刚需,极有可能是Sora式视频模型赋能机器人的前兆。
Robot learning has advanced rapidly in learning control, but learning the physical body of a robot remains much more difficult because jointly searching over design and control creates a very large co...
探讨如何将人类操作视频转化为多指机器人手的控制指令,并联合优化机器人的物理形态设计(例如手指长度)和控制策略。
这跳出了“先定硬件再学控制”的传统思路。直接根据人类视频逆向生成最适合的机器人物理构型,这对下一代低成本仿生灵巧手的设计有降维打击的意味。
Embodied foundation models are expected to benefit from data scaling like large language models, but face a much tighter data bottleneck. Teleoperated real-robot trajectories remain the dominant pretr...
指出遥操作等真机数据存在严重瓶颈,研究发现利用大规模第一视角的人类视频数据进行具身大模型的预训练,效果竟能超越真机采集的数据。
真机遥操作数据太贵且多样性极差。这篇研究直接证明了人类第一视角视频才是具身大模型降维打击的真解,接下来的看点是谁能先把类似Ego4D的数据清洗Pipeline做到工程化极简。
This paper presents an experimental study of motion planning for resilient continuum robots. In this study we mainly focused on multi-criteria decision-making, its application for path-planning algori...
本文针对具有高弹性的连续体机器人(一种由柔性材料构成、可无限弯曲的机器人)进行了运动规划实验研究,重点探讨了多准则决策在路径规划算法中的应用。
柔性机器人的控制一直是工程难题,因为其形变具有高度非线性。引入多准则决策做路径规划,意味着工业检测和医疗内窥镜等狭窄空间作业场景,终于能兼顾安全避障与精准到位了。
Vision-based tactile sensors require high-fidelity simulation for reinforcement learning, yet existing approaches struggle to provide accurate mechanical stress fields within GPU-accelerated robotics ...
视觉触觉传感器需要高保真仿真来训练强化学习模型,但现有方法难以在GPU加速的机器人模拟中提供准确的机械应力场。该研究提出了基于有限元方法(FEM)的可扩展框架TaCauchy来解决此瓶颈。
Sim2Real(仿真到现实)最大的痛点就是触觉模拟跟不上。有了TaCauchy这种能在GPU里跑高精度应力计算的框架,开发者就能在虚拟环境里大规模训练精细抓取和接触丰富的操作策略了。
Continuum robots offer strong potential for manipulation tasks due to their high degrees of freedom, compliant structures, and operational safety. However, their adoption in both research and practica...
连续体机器人凭借高自由度和柔顺结构在操作任务中潜力巨大,但在研究与应用中缺乏统一的软硬件标准。该研究提出了CoLI平台,结合一体化3D打印技术与同构遥操作系统,降低了数据采集与算法验证的门槛。
让研究者能用低成本3D打印硬件,配合同构遥操作直接采集真实世界数据,这套方案把柔性机器人的研发门槛打了下来,非常适合高校团队和独立开发者快速复现和迭代具身智能算法。
The ability to localise teams of robots is essential for applications ranging from robotic fleets in unstructured environments to cooperative control and navigation tasks. In such contexts, fixed infr...
仅利用测距测量实现多机器人编队的相对定位,无需依赖外部固定基础设施(如GPS或UWB阵列)。
地下矿场或室内灾后救援根本没有GPS或基站信号。纯靠机器人之间互相测距做相对定位的去中心化方案,是集群机器人走向无信号环境实战的刚需技术。
Vision-language-action (VLA) models show strong capabilities in single and dual-arm robotic manipulation. Prior works show coordinated bimanual behaviors can emerge from end-to-end learning, leveragin...
视觉-语言-动作(VLA)模型在机器人操作上表现出色。以往依赖端到端学习来涌现双臂协调行为,该研究提出Co-VLA,在模型架构中引入协调感知的结构化动作建模,以提升双臂协作任务的执行效率。
纯靠端到端大模型去‘碰运气’式地学习双臂配合效率太低。Co-VLA把协同约束直接拍进动作空间里建模,这意味着以后家用机器人做诸如‘双手配合切菜’或‘折叠衣物’等复杂家务工序时,成功率会显著上升。
AI vision models are a driving factor for the potential use case scenarios of cognitive robotics within in the industry and household applications. A large array of methods from semantic environment a...
探讨如何利用AI视觉模型高效生成合成数据,弥合真实场景差距,推动认知机器人在工业和家用场景中的应用。
用生成式AI造数据反哺感知模型,已经是各大自动驾驶和机器人公司的标配动作。对于做长尾物体识别(比如罕见零件、复杂家居杂物)的开发者,掌握这套合成数据Pipeline能极大降低标注成本。
Vision-Language-Action (VLA) models pre-trained on massive video-robot datasets have revolutionized robotic manipulation, yet their multi-billion parameter architectures impose prohibitive computation...
在海量视频和机器人数据上预训练的视觉-语言-动作(VLA)模型具有强大的操作能力,但其数十亿参数的架构带来了巨大的计算负担。研究表明,在实际应用微调时,仅需更新较少的模型层即可达到优异效果。
这简直是算力有限的开发者福音。不用全量微调几十亿参数的VLA大模型,只需更新极少网络层就能把开源机器人大脑适配到特定的机械臂上,大幅降低了硬件成本和训练时长。
Joint spatial and temporal understanding of 3D scenes is a crucial requirement for robots deployed in everyday household environments. Such agents must not only comprehend and navigate spatial layouts...
家庭环境中部署的机器人需要具备联合时空理解能力。该研究提出FlowMaps,利用流匹配(Flow Matching)技术对场景中物体的长期、多模态动态变化进行建模,帮助机器人理解复杂的环境演变。
家用机器人最大的痛点是环境高度动态,物品经常被随意移动。FlowMaps引入流匹配来预测物体的长期状态演变,这直接提升了机器人在真实家庭场景中寻找被挪动物品的长线任务导航能力。
Parallel-jaw grippers are the default manipulator choice in robotics because they are simple, robust, and inexpensive. Their limited in-hand mobility, however, often forces large arm motions and restr...
平行爪夹爪因简单耐用且便宜成为机器人标配,但其手内操作 mobility 有限,常需依赖机械臂大范围运动。该研究提出Belt-Finger,一种基于软体带驱动的平价夹爪,以较低成本实现了高灵巧度的手内重定向操作。
不用几十万的灵巧手也能做手内精细操作。用皮带轮结构实现平价夹爪的微操能力,对于想给产线机械臂低成本的升级复杂抓取任务的中小具身智能企业来说,是个性价比极高的工程替代方案。
Human Action Recognition (HAR) is frequently investigated in Human-Robot Collaboration (HRC) research to understand what actions have been performed and hence the state of a collaborative task. Accura...
利用人体动作识别(HAR)来精确判断协作任务的进度和状态,提升人机协作装配过程的准确性与鲁棒性。
工厂里的协作机器人最大的痛点是不知道工人干到哪一步了。纯靠视觉做动作识别推理装配状态,成本低且非侵入式,这对柔性装配线的工艺改造非常友好。
In Shenzhen, workers at IO-AI Tech control humanoid robots using a VR rig reminiscent of Ready Player One.
在深圳,IO-AI科技公司的员工通过类似于《头号玩家》中的VR设备,对 humanoid 机器人进行遥操作控制并收集数据。
这揭示了目前具身智能最性感的岗位:数据采集员。要批量获取高质量的人类示教数据,VR遥操作是目前成本和效率的最优解。这波红利其实属于深圳那些拥有成熟VR供应链和硬件迭代能力的集成商。
We present a zero-shot framework for long-horizon dexterous manipulation that grounds language instructions into executable 3D task plans from calibrated multi-view RGB images. Rather than training an...
提出了一种零样本长时程灵巧操作框架,能将标定好的多视角RGB图像中的语言指令转化为可执行的3D任务计划,无需额外训练。
绕开繁琐的强化学习训练,直接靠多视角RGB输入做3D空间推理,这对算力和数据量要求大幅降低。对开发者来说,以后做基于VLM的机械臂抓取部署成本更低,适合快速验证长链路家务机器人原型。
How can we scalably generate data for robotic manipulation, especially on human-like platforms such as dexterous multi-fingered hands? Learning from human videos has recently emerged as a likely answe...
探讨如何从日常人类视频中 scalable 地生成数据,以训练多指灵巧手等类人机器人平台的操作能力。
遥操作采集真机数据的瓶颈太明显了,把YouTube等人类第一视角视频直接转化为机器人训练数据是个必然趋势。如果这条路线跑通,具身智能的数据获取成本将呈指数级下降。
World models are the next big thing in AI beyond LLMs and, with this round, Odyssey has cemented itself as one of the startups to watch.
主打世界模型的初创企业 Odyssey 宣布获得新一轮融资,估值达14.5亿美元,投资方包括亚马逊等科技巨头。
巨头们砸钱说明世界模型不是学术界的小打小闹,而是继 LLM 之后的下一个万亿级叙事。Amazon 押注大概率是为了给自家仓储机器人和自动驾驶做底层的物理仿真引擎。
This study presents a method for modeling diverse plant branches by iteratively estimating material parameters to support delicate branch manipulation. Branch manipulation is necessary in agricultural...
提出一种通过迭代估计材料参数来对各类植物树枝进行建模的方法,以支持农业机器人在修剪等场景下的精细柔顺操作。
农业机器人落地最大的痛点就是非结构化环境里的软体形变预测。把树枝物理参数估计做准,果蔬采摘和修剪机器人的商业化闭环就能打通,建议关注其在温室大棚场景的实地测试效果。
Embodied Vision-Language-Action (VLA) models are typically obtained by fine-tuning powerful pretrained VLMs on robotics data, yet it is unclear how much commonsense and factual knowledge they retain a...
探究通过对强大预训练VLM进行机器人数据微调得到的VLA模型,究竟保留了多少关于真实世界的常识和事实知识。
很多VLA模型一微调就得了'灾难性遗忘',物理常识全丢了。这篇Paper给大家提了个醒:不要盲目追求参数量,怎么把LLM固有的因果和常识知识无损迁移到连续控制动作上,才是发下一篇顶会的关键。
Continuum robots offer a promising approach for minimally invasive and natural-orifice surgical procedures due to their inherent compliance and dexterity. However, this flexibility also makes estimati...
针对连续体机器人在微创手术中难以估计形状的问题,提出利用飞秒激光直写技术进行高精度形状感知的方法。
柔性手术机器人如果连自己的空间姿态都摸不准,谈何精准操作?这项传感器层面的底层硬件突破,直接决定了下一代单孔腔镜手术机器人能不能拿到医疗认证。
Markerless, single-RGB-D-camera motion capture provides a low-cost and non-invasive alternative to conventional marker-based systems for robot teleoperation; however, depth estimation often degrades i...
提出一种单RGB-D相机的无标记动作捕捉方案,通过确定性的手臂运动学校正解决深度估计退化导致的遥操作遮挡问题。
单目无动捕设备做遥操作极易受遮挡干扰,这个运动学补全算法很实用。做基于Apple Vision Pro或单目相机的廉价遥操作系统的团队,可以直接把这个抗遮挡模块加到pipeline里。
In this letter, we present a hierarchical control framework that enables wheeled bipedal robots to perform planar object sliding tasks with their wheeled legs. The proposed approach formulates a nonli...
提出一种分层控制框架,使轮式双足机器人能够利用其轮腿执行平面物体滑动任务,结合非线性规划和阻抗控制。
让双足机器人不再为了搬箱子死磕双臂抓取,而是利用底盘做滑动,这属于控制策略上的聪明解法。在仓储物流场景中,这种混合移动操作模式能大幅提升搬运大体积重物的能效比。
This paper presents an invertible neural network adapter for general robotic manipulation, designed to generate precise high-dimensional actions conditioned on multimodal observations, including visua...
提出一种可逆神经网络适配器,基于多模态视觉观测生成精确的高维动作指令,提升通用机器人操作中的流匹配效率。
扩散策略在动作生成上效果虽好但推理太慢,这个可逆适配器把多模态观测到高维动作的映射做到了一步流匹配。对于高频力控场景或者端侧算力有限的机械臂来说,算是个提升实时性的刚需方案。
提出一种能够根据自然语言指令,准确预测和生成高维3D人体或机器人运动轨迹的新模型。
比起端到端直接输出关节力矩,先把语言转化为精确的3D轨迹再下发给底层控制,能大幅提高模型的可解释性。做外骨骼或者虚拟数字人的开发者可以拿来做快速原型验证。
Establishing a universal benchmark for tactile representation learning in robotic manipulation remains challenging due to the diversity of tactile sensor designs, data formats, and robot embodiments. ...
针对触觉传感器设计差异大的问题,建立了一个通用的全手触觉表征学习基准,结合第一视角视觉进行评测。
现在触觉传感器各家一套标准,数据根本不通约。搞出一个统一的Bench其实是占坑,后续做灵巧手底层触觉预训练的模型,估计都得在这个基准上跑分对标。
If physical AI is going to match the accomplishments of LLMs, there's a data problem that needs to be solved.
指出物理AI要匹配LLM的成就,必须先解决数据瓶颈问题,目前已有实验室向XDOF等公司付费购买或定制真实的机器人操作数据。
大模型可以爬网页,但机器人数据必须真刀真枪在物理世界采。数据外包模式跑通,说明具身智能已经进入'大力出奇迹'的前夜。谁掌握了低成本、高质量的真实物理数据源,谁就拿到了下半场的入场券。
Dynamic 3D hand reconstruction from egocentric videos is essential for next-generation computing platforms such as AR/VR and AI glasses. Despite its importance, most prior works focus either on multi-...
提出一种前馈3D高斯溅射(3DGS)方法,从第一视角视频直接进行动态4D手部重建,对AR/VR和AI眼镜至关重要。
Quest和Apple Vision Pro最缺的就是精准的低延迟手部动捕。3DGS目前火的不能再火,把它用到Feed-Forward 4D手部重建上,实时性和精度大概率会碾压传统的NeRF方案。
Autonomous robots operating under forest canopies need robust perception of trees and surrounding vegetation across varying seasonal conditions. Existing forestry datasets provide lidar or camera data...
发布了一个包含激光雷达、雷达和相机的多模态森林场景数据集,以提升自动驾驶机器人在不同季节下对树木的感知鲁棒性。
森林这种非结构化、高遮挡场景一直是室外SLAM的死角。加入毫米波雷达做多模态融合非常关键,搞林业巡检无人机或户外救援机器人的团队,拿这个数据集重新标定感知模型能少走很多弯路。
Sidewalks in the real world are crowded, cluttered, and less structured than roads, making 3D occupancy prediction a key ingredient for the safe navigation of mobile robots such as delivery bots and e...
针对真实人行道拥挤杂乱的特点,提出一种基于单目相机的2D-3D混合学习方案,用于配送机器人等安全导航所需的3D占据预测。
人行道的非结构化程度远超公路,纯靠2D目标检测做避障绝对不够。这种单目转3D占据网格的方案直接切中了末端配送机器人的痛点,用极低的视觉传感器成本保住了导航安全性。
Task-oriented grasping performance degrades significantly when object views suffer from occlusions. Existing task-oriented grasping methods typically assume task-relevant regions are visible in the in...
针对物体视角被遮挡导致任务导向抓取性能下降的问题,提出一种基于可供性引导的主动视图规划方法。
这相当于给机械臂长了“心眼”,发现看不全抓取点时主动绕个圈看背面。在工业分拣和Bin Picking(料箱拾取)这种堆叠严重的场景中,这种主动视角调整能直接降低抓取失败率。
Vision-Language Models (VLMs) enable robots to follow open-language instructions. However, dense VLM embeddings have shown to be noisy and lack spatial consistency. This is problematic for robotic app...
针对视觉语言模型(VLM)的稠密特征嵌入缺乏空间一致性的问题,提出一种提升机器人任务中空间语义连贯性的方法。
VLM虽然能听懂“拿左边红色的杯子”,但在像素级对齐空间坐标时往往发飘。把语言嵌入和3D空间一致性做强绑定,直接利好基于大模型的开放词汇机械臂抓取,能有效避免抓错或碰倒其他物体。
Visual servoing with self-supervised Vision Transformer (ViT) features enables training-free robotic positioning with strong generalization, but faces a fundamental trade-off between robustness and pr...
利用自监督ViT特征实现免训练机器人定位,通过自适应分辨率分块技术(ART)解决鲁棒性与精度之间的权衡问题。
视觉伺服(VS)对特征提取的实时性要求极高。把ViT的Patch改成自适应分辨率分块,相当于给重点区域加了高倍放大镜,不仅保住了泛化性还提了精度,做无标定手眼协调的开发者可以留意这个trick。
Autonomous navigation of quadrupedal robots in diverse environments fundamentally relies on resilient Simultaneous Localization and Mapping (SLAM). While visual-inertial SLAM has matured across wheele...
系统评估了四足机器人在不同地形下,不同传感器配置对多模态同步定位与建图(SLAM)鲁棒性的影响。
别光顾着卷算法,传感器怎么装才是工程落地的底层逻辑。这文章基本给四足机器人的硬件叠甲提供了抄作业的指南,做轮式和足式机器人的BOM清单可以据此重新核算成本与性能的ROI。
Autonomous mobile service robots are often required to complete tours that require navigating through a set of locations in an environment. Example domains include guiding people through a shopping ma...
提出一种拥堵感知的路径规划方法,帮助自主移动服务机器人在商场、博物馆等拥挤环境中完成多点导航巡视任务。
送餐和导览机器人现在最怕在高峰期商场里被人群卡死。加入动态拥堵预测的路径规划比单纯做局部避障更实用,能有效提高单台机器人在复杂商业场景的跑单周转率。
On April 19, 2026, theHonor Lightning humanoid robot ran a half-marathon in 50 minutes and 26 seconds, beating the human world record by 7 minutes and the best rob
回顾荣耀闪电人形机器人在半程马拉松中以50分26秒的成绩打破人类世界纪录,分析其背后的硬件和算法优势。
能在50分钟跑完半马,说明电机热管理和足端接触力控已经做到了极致。比起叠动作生成,这种硬件底层物理边界的突破,才是让双足机器人真正走出实验室、迈向特种巡检场景的核心底气。
Action-conditioned world models have emerged as a promising paradigm for robot learning, offering a scalable alternative to costly real-world experimentation by generating action-consistent video roll...
提出一种记忆增强的动作条件世界模型,通过生成动作一致的视频轨迹提供长期记忆,解决长时间任务中的状态跟踪问题。
现在大多数世界模型都是金鱼记忆,干两步就忘了开头。引入长期记忆机制解决长时间操作任务(如倒水、叠衣服)的状态连贯性问题,是大模型端到端控制走向复杂家务的核心门槛。
Tactile sensing provides direct measurements of contact interactions that are essential for robotic manipulation. However, current simulators lack the fidelity to faithfully model the complex deformat...
提出一种在仿真与现实之间建立物理增强的共享潜空间方法(TactSpace),以解决触觉传感器在仿真器中形变建模不准确导致Sim-to-Real困难的问题。
触觉Sim-to-Real的物理仿真一直是块硬骨头。强行对齐物理参数不现实,直接学习一个带有物理特性的共享潜空间来桥接虚实,算是给灵巧手大规模虚实迁移提供了一个极具性价比的新解法。
介绍如何利用 Hugging Face 开源社区中的模型和 LeRobot 框架,结合 Strands Agents 快速搭建并驱动真实的机器人硬件。
这就是开源届的' My first robot '教程。买不起几十万的本体没关系,HuggingFace 加 LeRobot 让你用极低成本跑通端到端 pipeline,大大降低了高校实验室和极客玩家入局具身智能的门槛。
The next humanoid robot might not have a head. It might not have legs. It might even sit on a wheeled base and fold down like a deck chair. But, as Genesis AI puts it, "humanoid robots don't need to l...
探讨未来人形机器人的形态演变,认为可能不再有头部和双腿,而是采用轮式底座或折叠形态,只要能完成任务即可。
大家容易被特斯拉Optimus带偏,觉得人形必须有头有胳膊。其实工厂里根本不需要机器人的'情绪价值',轮狗加机械臂的ROI远高于双足人形。摆脱类人形态的执念,才是商业变现的开始。
Effective human-robot teamwork requires robots to adapt to partners, situations, and task dynamics from the start of an interaction. In the MATRX Urban Search and Rescue (USAR) environment, people can...
在MATRX城市搜救(USAR)环境中,研究如何利用情景记忆让机器人记住并适应之前的人类协作模式,实现开箱即用的高效人机协同。
现在的人机协作大都是从零开始的冷启动。如果机器人能复用与不同救援人员的历史交互经验,就能在紧急场景下省去大量沟通成本。这种Agent记忆调用思路对所有交互式具身产品都有启发。
Robots deployed in the real world should learn from their experience and improve over time. This requires a mechanism of practicing and learning from feedback. In this paper, we propose VERITAS, a gen...
提出VERITAS框架,让真实世界部署的机器人能够通过视觉反馈机制从经验中学习并持续改进操作策略。
这解决了一个极痛的痛点:机器人出厂后能力就固化了。现在有了视觉反馈闭环,机器人能在实际部署中自己给自己纠错,这对于降低售后维护成本和提升长尾场景适应性太关键了。
Collaborative human-object interaction shows dynamic and complex movements that require mutual anticipation and continuous adjustment between participants and the shared object. Modeling such collabor...
提出一种针对人、物体协同交互的动态复杂运动建模方法,能够更好地预测和调整多方协作时的连续动作。
以后做协作机器人或者外骨骼的工程师可以关注一下,从单臂操作扩展到人机物理交互建模,这是服务机器人和医疗康复机器人真正走向C端的必经之路。
We present EBench, a simulation benchmark that diagnoses generalist mobile manipulation policies beyond a single success-rate scalar. EBench comprises 26 diverse and challenging manipulation tasks ann...
提出EBench仿真测试基准,不再仅用单一成功率来衡量移动操作机器人,而是通过26个任务进行多维度的能力诊断。
现在大家发Paper都吹自己的通用策略成功率高,但一上真机就翻车。这个Benchmark的价值在于帮你拆解到底是感知、规划还是控制拉胯了,省下了大量盲目调参的时间。
Zero-Shot Object-Goal Navigation (ZS-OGN) requires embodied agents to explore and locate target objects without any prior training. To this end, recent methods leverage foundation models. But they typ...
零样本目标导航要求机器人在无训练数据的情况下寻找目标。EvolveNav 结合大模型的主动预反思和自我进化记忆机制,突破了现有基础模型在此任务上的局限。
做家庭服务机器人的肯定都遇到过 LLM 幻觉导致的无效巡航。加入类似“预反思”和“记忆库”的机制,能有效缓解大模型在未见场景下的胡乱猜测,这是目前提升具身智能体在复杂室内环境导航成功率的低成本捷径。
The Israeli tech company and Intel subsidiary said it will launch its own robotaxi service in a U.S. city in 2027.
这家以色列科技公司及英特尔子公司宣布,将于 2027 年在美国某城市推出自己的无人驾驶出租车服务,从而同时涉足自动驾驶的软硬件供应与终端运营。
Mobileye 选择双线并行:既卖系统又自己做车队运营商。这种重资产模式必然拉高短期财务风险,但如果能跑通整套运营闭环,不仅能卖系统授权还能抽成运营流水,有助于彻底拉开与纯软硬解耦友商的商业壁垒。
Current world models face a fundamental tension: faithful long-horizon simulation demands deep computation, but deeper models are expensive to deploy and prone to compounding errors. We resolve this b...
为解决现有世界模型在长时间模拟中面临的计算成本高和误差累积问题,提出一种通过深层循环计算来优化模拟的框架。
Sora之后的视频生成模型最怕长镜头的物理崩坏。引入Loop机制在时间维度上做深推演,既压制了多步预测的复合误差,又没爆显存,对于做Robotics长周期任务规划的人是个利器。
Conventional human-in-the-loop approaches typically involve users only when a robot encounters failure or uncertainty, treating humans primarily as tools for improving robot performance. However, in m...
打破仅在人机交互失败时才引入人类干预的传统模式,提出一种基于人类参与度感知的人机在环新框架。
思路很赞,把人当成'救火队员'太被动了。如果系统能根据人的认知负荷和当前参与度主动请求协助,不仅能提高任务成功率,在实际工厂部署时也更容易被工人接受。
Finite-dimensional (FD) diffusion policies exhibit temporal drift owing to discretization artifacts that degrade long-horizon performance (when deployed on physical systems). We introduce a backward K...
为解决有限维扩散策略因离散化导致的时间漂移和长时间序列性能下降问题,引入向后Kolmogorov方程进行优化。
物理真机控制对毫秒级延迟极度敏感,Diffusion策略的时间漂移一直让人头疼。用数学上严谨的回归方法从底层修补离散化误差,比单纯叠复杂的网络结构要fundamental得多。
We break down Qwen-RobotSuite, the Qwen team's three new embodied AI models. We cover RobotManip, a Vision-Language-Action model built on Qwen3.5-4B for manipulation. We cover RobotWorld, a language-c...
阿里 Qwen 团队推出包含三个具身智能模型的 Qwen-RobotSuite:基于 Qwen3.5-4B 的操作模型 RobotManip、语言条件视频世界模型 RobotWorld 以及导航模型。
阿里这波放了个具身智能的大招。直接用自家 4B 的大语言模型做底座重构 VLA,说明行业已经达成共识:做大参数 scale up 比在小模型上死磕泛化性管用,语言模型的常识推理能力正在向机器人端全面溢出。
Tired of vacuuming? Hand the reins to a robot vacuum.
盘点 2026 年市面上的主流扫地机器人产品,包括 Shark 和 Eufy 等品牌,为消费者提供自动化清洁家电的选购指南。
扫地机器人是具身智能目前唯一真正实现大规模商业闭环的品类。对于做算法的工程师来说,关注这些消费级产品的演进方向很重要,毕竟成本极其敏感,视觉 SLAM 和路径规划算法必须做到极致的工程优化。
Agentic navigation systems require a base navigation model whose observation strategy can be externally reconfigured at inference time, because instruction following, object search, target tracking, a...
智能体导航系统要求基础模型能够在推理时动态更改观测策略,以应对指令跟随、目标搜索和目标追踪等不同任务。Qwen 团队发布了 Qwen-RobotNav 以解决该问题。
传统的端到端导航模型很难应对动态变化的指令。Qwen-RobotNav 强调的“推理时外部重配观测策略”,实质上是让大模型学会了根据不同任务调用不同的传感器权重,这种高可塑性架构极有可能重塑下一代具身底层控制范式。
I have one golden rule: It's not about the mower, it's about the yard. Use my free checklist to decide which model to buy.
作者基于大量割草机器人的使用经验总结出一条黄金法则:重点不在机器本身,而在于庭院的地形环境,并提供了一份选购清单。
割草机器人现在正经历扫地机当年的普及曲线,但痛点是要求应对起伏地形和复杂边界。ToC 端的具身智能设备绝不能脱离环境谈算法,庭院的基建(如边界线铺设、草坪平整度)直接决定了产品体验的下限。
Deformable Linear Objects (DLOs), such as wires and cables, are central to industrial assembly. Unlike rigid objects, whose state is captured by a 6-DoF pose, DLOs have an infinite-dimensional configu...
针对工业装配中常见的柔性线缆(DLOs)无限维状态难以建模的问题,推出了专门的仿真测试基准。
搞工业自动化的都知道, rigid body(刚体)抓取早卷烂了,但插拔线束、整理电缆一直是个大麻烦。有了专门的Benchmark,学术界的无受力模型方法终于可以和工业界的物理引擎刚一波了。
Cross-end-effector grasp generation seeks a unified model that generalizes across objects and across embodiments ranging from parallel grippers to dexterous end effectors. Existing grasp generators ar...
旨在解决不同机器人末端执行器(如平行夹爪或灵巧手)之间的抓取泛化问题,通过几何感知实现对齐。
这是迈向'通用物理底座'的必经之路。以后换机械臂或者夹爪不用重新采数据训练了,一套模型适配各种硬件本体,对降本增效的意义极大。
We propose a hybrid grasp synthesis framework that combines a learning-based Energy-Based Model (EBM) with an analytical Iterative Closest Point (ICP) method to generate robust grasps from partially o...
结合基于学习的能量模型(EBM)和分析学方法的迭代最近点(ICP)算法,在遮挡等部分观测条件下生成稳定的抓取姿态。
纯学习的方法在面临严重遮挡时极易输出不合理姿态,把传统几何方法(ICP)缝合进去了,既保留了学习的泛化性,又保证了位姿的物理合理性,真机部署的鲁棒性应该不错。
Vision-language-action models (VLAs) combine vision-language backbones with expressive generative action heads trained via flow matching on large-scale robotic datasets. Despite their strong empirical...
针对目前主流的通过流匹配训练的VLA模型,提出量化其动作输出不确定性的方法,以提升模型部署的安全性。
VLA模型现在火归火,但如果机器人对自己输出的动作没有'自知之明',在工厂里瞎动是非常危险的。能准确输出不确定性分数,是实现人机安全协作和故障熔断机制的前提。
Diffusion-based visuomotor policies deployed with asynchronous inference often exhibit inter-chunk discontinuities and lack explicit mechanisms for obstacle-aware execution, leading to jerky motions a...
解决基于扩散模型的视觉运动策略在异步推理时产生的动作不连贯和缺乏避障机制的问题,实现平滑操作。
Diffusion Policy生成动作太慢导致的卡顿感极差。这个工作抓住了异步推理带来的时间切片断层问题,通过带目标导向的无碰撞规划来平滑动作,实用性很强。
The service will leverage its Moovit platform to launch in an a US city in 2027.
Mobileye 计划于 2027 年在美国某城市推出其无人驾驶出租车服务,该服务将依托其旗下的 Moovit 出行平台进行运营。
Mobileye 放弃了单纯的 Tier 1 供应商角色,亲自下场搞 To C 运营。连同 Moovit 的调度生态一起打包,说明他们想向资本市场讲一个端到端的无人车故事,这势必会和 Waymo 产生直接的商业争夺。
Most Vision-Language-Action (VLA) models map observations directly to actions without explicit reasoning, limiting their capacity for reasoning-intensive long-horizon tasks. To address this, existing ...
现有的视觉-语言-动作(VLA)模型大多将观测直接映射为动作,缺乏显式推理。ThinkingVLA 引入视觉与语言交织的推理机制,以解决长视野复杂任务。
现在的端到端 VLA 就像个没脑子的肌肉男,遇到没见过的情况就直接罢工。加入类似链式思考的过程推理,是解决长视野任务中“多步规划+错误纠正”的关键路径,也是让机器人具备真正任务级常识的破局点。
Current Vision-Language-Action (VLA) models face a trade-off between efficient action generation and explicit deliberation. Directly decoding actions from vision-language backbone representations enab...
解决了当前VLA模型在快速动作生成和显式逻辑推理之间的权衡问题,通过在潜在空间逐步优化动作计划来提升表现。
直接从VLM解码动作往往缺乏深度的逻辑思考。在Latent Space里做CoT(思维链),既兼顾了VLM的常识推理能力,又没拖慢推理速度,是目前End-to-End VLA一个非常讨巧的演进方向。
Recent World-Action (WA) models demonstrate strong generalization ability and data efficiency, but they typically rely on expert trajectories for training. This reliance limits their ability to acquir...
打破了世界-动作模型高度依赖专家轨迹的限制,引入强化学习与重建奖励,使其能从在线视频中学习并探索。
摆脱对昂贵人类遥操数据的依赖是具身智能商业化的关键。能直接用全网海量的无标注视频做SFT加RL,数据获取成本直接断崖式下降,这才是实现Scaling Law的正确姿势。
Genesis AI, the French robotics startup backed by former Google CEO Eric Schmidt, unveiled its first general-purpose robot on Tuesday, as AI capabilities expand beyond chatbots and into physical mac...
由前谷歌 CEO 埃里克·施密特支持的法国机器人初创公司 Genesis AI 于周二发布了其首款通用机器人。随着 AI 能力从聊天机器人向实体物理机器扩展,该公司选择了一条与人形机器人不同的技术路线。
所有人都在死磕双足人形其实是个巨大的从众陷阱。工厂和真实场景往往需要的是效率、载重和稳定性,而不是长得像人。押注非人形(比如轮式底盘加机械臂)的团队如果能大幅压缩成本并提高容错率,很可能比人形机器人更早实现大规模商业化盈利。
Foundation models in language and multimodality achieve strong generalization by aligning heterogeneous data under a unified formulation and training at scale. In this report, we investigate whether t...
Qwen 团队探讨如何通过统一框架对齐异构数据并进行大规模训练,以使机器人操作基础模型像语言和多模态模型一样获得强大的泛化能力。
大模型的成功经验证明,把不同来源的异构动作数据投影到同一个语义空间里做对齐,是 scale up 的前提。这给苦于数据分布碎片化的具身智能圈提了个醒:先做数据表征统一,再谈涌现能力。
Humanoid robots promise whole-body interaction in human-centered environments, but scalable policy learning remains difficult because task-level decision-making and whole-body dynamic execution are ti...
人形机器人有望在人类环境中实现全身交互,但任务级决策与全身动态执行的分离导致策略学习困难。HumanoidArena 旨在对这种分层全身学习进行基准测试。
人形机器人控制很容易陷入“顾上不顾下”的尴尬:要么上半身任务做完了下半身摔倒了。把高层语义指令和底层平衡控制拆开做分层强化学习并设立基准,是目前解决轮式/双足通用本体落地最理性的架构设计。
Robotics are expected to support environmental monitoring and natural disaster management, where decisions must be made under uncertainty, resource limitations, and strict operational constraints. In ...
针对环境监测和灾害管理中资源受限和需在不确定性下决策的难题,研究提出 ED3R,利用多机器人协作智能体进行具备能耗感知的分布式灾害检测。
灾害搜救场景下机器人的电量就是生命线。引入能耗感知的分布式协作机制,能在网络通信极差的环境下最大化多智能体系统的存活和工作时间,对做应急机器人的团队来说是非常硬核的落地参考。
Generalist embodied agents require more than object recognition: they must reason about spatial relations, actions, procedures, human intentions, environmental constraints, and commonsense consequence...
强调通用具身智能体不能仅靠物体识别,还需要对空间、意图、环境约束和常识后果进行复杂推理,并推出相应评测基准。
别再拿简单的抓取成功率忽悠人了。模型到底懂不懂'把热汤倒进塑料碗里'的后果?这个基准专门打脸那些缺乏基础物理常识的刷榜模型,倒逼社区关注机器人的真实逻辑推理。
Safe and efficient trajectory planning in unknown, cluttered 3D environments constitutes a critical bottleneck for deploying Unmanned Aerial Vehicles (UAVs) in real-world applications. This challenge ...
解决无人机在未知、杂乱的3D环境中进行安全高效轨迹规划的瓶颈,提出无需先验地图的视场角受限主动感知方法。
搞无人机穿越或者灾区救援的工程师必看。以前靠SLAM先建图再规划太慢了,现在结合有限的传感器视场角做实时的主动感知,能让无人机在极度未知环境下敢飞、飞得快。
Humans naturally leverage diverse sensing modalities to interact with the physical world, while most Vision-Language-Action (VLA) models for robotics rely solely on RGB observations. This limits their...
打破当前机器人VLA模型过度依赖RGB视觉的局限,像人类一样引入多种传感模态(如触觉、深度)进行物理交互。
视觉-only在透明杯、反光物面前直接拉胯。把触觉和深度信息原生融入VLA,能大幅提升易形变物体和精细操作的鲁棒性,多模态融合绝对是具身大模型下半场的核心竞争力。
Simultaneous localization and mapping using radar sensors has gained increasing attention due to radar's inherent robustness to adverse weather and lighting conditions. However, radar measurements are...
针对雷达在恶劣天气和光照下鲁棒但存在测量噪声的问题,提出一种新的雷达同步定位与建图(SLAM)方法。
自动驾驶界早就在卷纯视觉和激光雷达的路线了。但在雨雪雾天,毫米波雷达才是真神。这套连续映射方法如果能解决雷达点云稀疏和幽灵噪点的问题,户外重工业场景的落地会非常快。
Robot mowers aren't one-size-fits-all devices - many have overhyped specs you don't even need. Here's my advice after years of testing.
割草机器人并非一刀切的设备,许多产品存在过度宣传的参数。作者基于多年测试经验指出,消费者应警惕无用的营销指标,关注实际场景需求。
做家用机器人产品的产品经理得注意了,堆砌炫酷参数不如解决边界情况(比如复杂地形避障)。现在消费者越来越务实,能落地解决特定痛点的功能才愿意掏钱买单。
The ability to react dynamically to tactile signals has long been considered crucial to agile human-level dexterity. Yet contemporary learning-based Vision-Language-Action (VLA) models for robotic man...
针对当前基于视觉-语言-动作(VLA)模型的机器人难以对触觉信号做出动态反应的问题,研究提出 T-Rex,旨在提升机器人实现人类级别敏捷操作的触觉反应能力。
纯视觉的 VLA 模型在处理透明物或柔软物体时很容易翻车。引入触觉反馈做成多模态反应机制,是机器人从“粗放抓取”走向“精细灵巧操作”的必经之路,尤其对柔性物体处理意义重大。
Humans can grasp objects effortlessly, whereas multi-fingered robots are far from this level of generality. We argue that the most natural source of robot grasping data is from humans, who pick up tho...
为了让多指机器人达到人类级别的通用抓取能力,研究主张利用人类抓取物体的自然动作作为最核心的数据源来训练机器人抓取策略。
Scaling law 在机器人领域同样适用,但遥操数据采集成本太高。用人类日常抓取的第一人称视频直接作为训练集来 scale up 数据量,是目前解决机器人操作泛化性最务实的路线之一。
Generalist robot policies must follow user instructions while reasoning about how objects, cameras, and robot actions interact in the 3D physical world. Recent vision-language-action models (VLAs) and...
为了让通用机器人策略在遵循用户指令的同时理解三维物理世界的交互,研究引入几何动作模型,改进现有的视觉-语言-动作模型(VLA)在空间推理上的不足。
现在主流的 VLA 模型在 2D 像素到 3D 动作空间的映射上依然有些玄学。显式引入 3D 几何先验可以帮助模型更快理解视角变化和空间遮挡,这对于受限于数据量的泛化任务来说能显著加速收敛。
When pretrained VLA policies are fine-tuned through online RL, each rollout episode produces only a single binary outcome (success or failure), yet the actor update requires per-transition supervision...
针对 VLA 策略在在线强化学习微调时仅能获得成功或失败这种单一稀疏二值奖励的问题,研究提出一种分层优势加权方法,为每步状态转移提供细粒度监督信号。
机器人 RL 的核心痛点就是奖励过于稀疏导致学习极慢。这套方法把宏观的任务成功与否拆解细化到每个 transition 上,对那些需要跑实机、且测试成本极高的长步骤任务(比如叠衣服)非常有实用价值。
Spatial generalization is critical for imitation-learned manipulation policies, but achieving it typically requires scaling demonstrations across diverse object poses, robot configurations, and camera...
模仿学习策略对空间泛化要求极高,通常需要海量不同位姿和视角的演示数据。R2RDreamer 利用 3D 感知技术进行数据增强,以低成本解决 2D 操作策略的空间泛化难题。
纯靠人工采集机器人遥操数据太贵了,而且覆盖不了各种刁钻的位姿。基于世界模型生成 3D 视角的增强数据,是目前压低机器人训练数据获取成本、快速扩充场景多样性的最佳捷径。
We introduce Qwen-RobotWorld, a language-conditioned video world model for embodied intelligence. With natural language as a unified action interface, it predicts physically grounded future visual tra...
Qwen 团队发布 Qwen-RobotWorld,这是一个以自然语言为统一动作接口的具身智能视频世界模型,能够预测具有物理规律的未来视觉轨迹。
阿里 Qwen 团队显然在赌“世界模型”这条路线。将语言指令直接映射为物理可解释的视频预测,一旦未来与底层控制打通,可能彻底绕过繁琐的状态机设计,直接实现从大模型端到端对机器人的规划控制。
Human interventions provide crucial corrective signals for post-training Vision-Language-Action (VLA) models. However, enabling seamless humanoid interventions is a formidable systems challenge due to...
人类干预能为 VLA 模型的后训练提供重要的纠错信号,但实现无缝的人形机器人干预在系统架构上极具挑战。ROVE 利用强化学习解决了这一难题。
机器人在真实场景部署时不可避免会犯错,目前的策略很难做到全自动恢复。支持人类接管并进行纠错数据回收进行 RL 微调,是目前打通“数据采集-模型迭代”数据飞轮最务实的方法。
Cyber-physical system (CPS) controllers are vulnerable to faults and malicious attacks, including failures triggered only under complex plant conditions, yet pre-deployment validation typically relies...
信息物理系统(CPS)控制器易受复杂故障和恶意攻击影响。研究提出引入沙盒机制的数字孪生技术,以弥补现有部署前验证方法的不足,提升系统安全性。
工业互联网和车联网的安全痛点就在这:很多故障只有在特定环境组合下才会触发。用数字孪生加沙盒做极限工况的 fuzz 测试,比直接在线网里做安全攻击测试的性价比高得多。
For residual learning that refines existing behavior, sample efficiency depends on two things: how much information each rollout returns, and how efficiently the learner uses that information. Reinfor...
研究探讨了如何提高残差学习的样本效率,通过强化学习优化真机五球抛接任务,重点分析了每次采样获取的信息量及其利用效率。
动态抛接是测试机动物体跟踪与高频控制响应的试金石。真机能跑通五球抛接,说明其底层控制频率和机电素质已经处于极高水平。把这种高频误差残差学习框架下放,能极大改善机械臂在高速工况下的表现。
Robots operating in non-stationary environments must continually adapt their policies as the dynamics drift, but onboard energy and compute budgets cap how often a full state estimation and re-plannin...
针对非平稳环境中机器人重规划受限于机载能源和算力的问题,研究提出一种基于“遗憾值”的引导机制,动态决定机器人何时进行状态估计和重新规划。
在实际部署中,让机器人一直跑重规划算法很快就会把电池耗尽。这个研究抓住了算力预算和动态环境适应之间的平衡点,非常适合需要长时间户外作业的物流配送或巡检机器人。
Urban sidewalk navigation presents significant challenges due to complex structural layouts, dynamic pedestrian behaviors, and long distances. While recent visual navigation models offer a promising s...
城市人行道导航因复杂的结构布局、行人动态和长距离面临巨大挑战。研究推出 SidewalkBench,用于评估和基准测试最新的视觉导航模型在城市无障碍环境中的表现。
当前自动驾驶技术大多聚焦机动车道,但末端无人配送机器人的主战场其实在人行道。这个 benchmark 补齐了非机动车道复杂动态场景下的评测空白,做送货机器人视觉导航避障的团队可以拿去跑分验证。
Rovers rely on perception to maintain spatial maps that encode both objects and sensor quality (e.g., range reliability, lighting artifacts, data density), guiding data fusion, embedding updates, and ...
该框架提出一种置信度感知的开放词汇语义地图。火星车等机器人利用该地图编码物体属性和传感器质量(如测距可靠性、光照伪影),从而指导更精准的数据融合与导航决策。
在极端或暗光环境下,死磕单传感器精度是走不通的。引入置信度评估机制,让机器人知道“自己在哪看不清”,对自动驾驶和野外探测的容错率提升极大,这种思路很值得做多传感器融合的工程师借鉴。
This paper addresses the problem of learning an output-feedback surrogate controller offline that approximates a given, possibly computationally expensive, nonlinear controller-observer pair. The surr...
研究提出一种离线学习输出反馈代理控制器的方法,用以替代计算成本高昂的传统非线性控制器-观测器对,从而在保证稳定性的同时降低在线计算开销。
做传统控制算法上车的工程师可以关注一下。用学习的轻量级代理模型替换复杂的 MPC(模型预测控制),既能保留稳定性保证,又能显著降低硬件算力门槛,对边缘设备部署非常友好。
Wireless communication channel characterization for unmanned aerial vehicles (UAVs) is essential for reliable control, data transmission, and mission performance in civil, industrial, and defence appl...
针对无人机(UAV)在民用、工业和国防应用中的可靠控制与数据传输需求,研究对其无线通信信道的特性进行了分析与建模。
低空经济现在热度很高,但这块的一大痛点就是通信链路不稳定。把多径效应和多普勒频移对无人机图传和飞控的影响摸透,是大规模部署无人机快递和巡检业务绕不开的基础设施环节。
We present Unified Motion-Action (UMA) Model, an approach that uses 3D object motion trajectories as a shared interface to bridge visuomotor control and dynamics modeling. UMA treats object motion and...
研究提出统一动作-运动(UMA)模型,利用3D物体运动轨迹作为共享接口,打通了视觉运动控制与动力学建模,使异构机器人能共享学习到的动作策略。
打破不同机器人之间的数据壁垒是当前具身智能降本增效的关键。用3D轨迹作为通用接口,意味着从机械臂迁移到人形机器人的训练成本将大幅降低,这套跨本体迁移思路极具商业价值。
This work addresses spatial question answering for service robots traversing long egocentric routes. Given a query such as "where can I find a dry cleaner on the way back home?", the system returns a ...
该研究解决服务机器人在长距离第一视角路径上的空间问答问题(如“回家路上哪里有干洗店”),系统利用视觉语言模型(VLM)进行空间目标追踪与导航。
把空间记忆和导航结合是个非常实用的方向,特别是外卖、快递配送机器人。结合开放词表的VLM,机器人终于能听懂人话并在复杂长路径中找对目标,这比单纯的SLAM建图更贴近真实商用需求。
Detecting unanswerable user queries remains essential for the reliable deployment of real-world embodied agents. However, modern vision-language models (VLMs) often generate overly confident answers e...
为了可靠部署具身智能体,检测无法回答的用户查询至关重要。研究提出 Semantic Flip 方法,合成分布外(OOD)数据,解决视觉语言模型(VLM)在面对无法回答问题时过度自信的幻觉问题。
大模型落地具身场景最大的坑就是“不懂装懂”。这项研究直击幻觉痛点,教机器人在面对超出能力范围的指令时学会说“我不知道”,这对于医疗、家庭服务等人机交互安全要求高的场景是刚需。
Learning from Demonstration (LfD) enables intuitive robot skill acquisition by allowing robots to learn directly from human task demonstrations. However, current methods often fail to address the fact...
从人类示范中学习(LfD)让机器人直观获取技能,但现有方法常忽略人类示范包含错误或非最优动作的问题。LOPAL 提出局部性能感知的主动学习,识别并修正这些不完美的示范。
做机器人遥操作和模仿学习的同学肯定受过“脏数据”的苦。非专业人员采集的示教数据往往包含大量冗余和失误动作,这个方法能有效降低对高质量专家数据的依赖,加快模型微调速度。
We introduce a data-efficient distributed Simultaneous Localization and Mapping (SLAM) framework designed for a team of robots equipped with LiDAR, cameras, and inertial sensors. Our framework uses sc...
提出一种数据高效的分布式同步定位与建图(SLAM)框架,供配备激光雷达、相机和惯性传感器的多机器人团队使用,通过场景图匹配减少通信带宽需求并提升建图效率。
多机器人协同作业(如灾后救援、大型仓储盘点)最大的瓶颈是通信受限。用场景图进行语义级压缩和匹配,而不是硬传点云数据,非常巧妙地解决了带宽问题,工程落地价值很高。
Adaptive torque prediction in dynamic exoskeleton scenarios requires expensive motion capture systems, which are infeasible in complex outdoor environments. Trajectory prediction has emerged as one of...
动态外骨骼场景下的自适应力矩预测通常依赖昂贵的动作捕捉系统,这在复杂户外环境中不可行。该研究提出基于轨迹预测的方法,实现适应复杂环境的通用下肢外骨骼辅助策略。
外骨骼要真正走出实验室走向户外,就必须摆脱对光学动捕系统的依赖。纯基于本体感知和轨迹预测的自适应力矩控制,极大降低了硬件门槛,有望加速外骨骼在康复和工业搬用领域的普及。
Realistic visual simulation of food manipulation requires accurate material parameters, yet these are difficult to measure directly and vary across the heterogeneous regions of a single food item. We ...
食物拟真视觉模拟需要准确的材料参数,但这些参数难以直接测量。研究提出在潜空间中使用强化学习方法来估计食物的异构材料参数。
对于做具身智能仿真的开发者来说,这意味着在 Isaac Sim 等引擎里做食物抓取或切割任务时,不用再费力手动调参了。利用潜空间表征直接逆向推算材料参数,能大幅提升物理仿真的逼真度。
Generalist manipulation policies are increasingly presented as foundation models for robotic control, but their real-world generalization remains difficult to diagnose. A policy may succeed on demonst...
通用操作策略常被视为机器人控制的基础模型,但其真实世界泛化能力难以评估。ATOM-Bench 提供了一个真实世界基准,诊断策略在原子技能及长程组合任务上的泛化表现。
当前机器人策略模型在实验室表现很好,一到真实环境就拉胯。这个Benchmark重点考验模型对未见过的长程组合任务的泛化能力,建议做具身大模型的团队拿它做做压力测试,看看模型是不是真懂了物理规律。
Foundation models are reshaping robotics by enabling robots to interpret open-ended instructions, reason over multimodal contexts, and operate in complex, open-world environments. However, their integ...
基础模型让机器人能理解开放式指令并在复杂环境中运行,但整合这些模型也带来了严重的安全与隐私漏洞。本文系统梳理了相关攻击面及防御机制。
大模型接入机器人后,传统的提示词注入攻击直接变成了物理世界的安全威胁。比如诱导机器人故意摔坏物品或泄露家庭监控画面。安全团队现在就得把大模型围栏和底层控制系统的权限隔离提上日程。
Exploration and object search require robots to perceive their environment, identify regions of interest, and plan trajectories that improve target-detection likelihood or maximize information gain. M...
机器人在执行探索和目标搜索时,需要识别感兴趣区域并规划能最大化信息增益的轨迹。DIFF-IPPO 结合扩散模型与开放词表地图,有效提升了复杂环境下的路径规划质量。
将扩散模型用在路径规划上是个很有意思的尝试。相比传统算法,扩散模型在处理多模态分布的复杂环境(比如拥挤的人群)时更有优势,未来在无人机搜救或复杂仓储物流中潜力很大。
Generalist robot policies require trustworthy evaluation and robot-usable training data, but both are difficult to scale with physical robots alone. Real-robot trials and demonstrations remain the mos...
通用机器人策略需要大量高质量的训练数据和可靠的评估,但纯靠真实机器人成本极高。DataLadder 提出了一套连接仿真与真实数据的互转工具链,以高效扩充具身智能训练数据。
纯靠人形机器人遥操作收集数据太慢且昂贵。利用仿真到现实(Sim2Real)的工具链进行数据扩繁和对齐,是目前各家具身大厂都在暗中发力的方向,谁能解决好仿真偏差,谁就能率先跑出泛化模型。
Achieving expert-level expressive full-body motion tracking across multiple humanoids solely from demonstration data remains a challenging and relatively an underexplored problem in humanoid robot lea...
仅从示范数据中学习专家级的全身表达性运动追踪,在仿人机器人领域仍具挑战。VENOM 网络提出一种通用方法,解决多仿人机器人的全身精细运动追踪问题。
现在人形机器人的研究正在从“走得稳”向“动得像人”进化。精细的全身动作追踪不仅能改善机器人的平衡性,更是未来切入演艺、主题乐园等娱乐商用场景的核心技术壁垒。
Learning-based manipulation policies have made substantial progress in real-world robot manipulation, particularly for short-horizon action generation. However, deployment in open workspaces remains f...
基于学习的操作策略在真实世界短视界任务中取得进展,但在开放工作空间中常因环境变化导致不可预测的失败。PATCH 提出一种潜在补丁监控方法,实时检测并防止策略执行偏离预期。
机器人部署到工厂产线最怕的就是“突然抽风”抓空,导致整个流水线卡壳。这种基于动作块的创新监控机制,相当于给操作模型加了一道安全险,一旦发现异常立刻介入,对提升工业容错率很实用。
Aerial manipulators enable physical interaction in hard-to-reach environments; however, the combined problem of direct whole-body aerial manipulation under rapid arm motion, payload changes, and relat...
空中操作机器人能够在难以到达的环境中进行物理交互,但在机械臂快速运动和载荷变化下,全身控制面临巨大挑战。该研究将强化学习与内循环动力学估计器结合,提升了复杂扰动下的飞行抓取稳定性。
无人机带机械臂抓东西,最大的难点是重心的动态突变。传统PID控制根本扛不住这种突变,把动力学估计嵌套到强化学习的内循环里,能实时补偿这种不确定性,对风力发电机检修等特种作业是个好消息。
World models are widely used in robotic and agentic engineering control systems due to their ability to learn latent dynamics for planning and decision-making. As these systems are increasingly deploy...
世界模型因能学习潜在动力学用于规划,被广泛应用于机器人和智能体控制。随着部署规模扩大,ARB4WM 基准专门评估这些世界模型在面对对抗性干扰时的鲁棒性表现。
世界模型现在火得一塌糊涂,但大家都忙着刷指标,很少人关注它面对恶意干扰时的脆弱性。如果机器人的世界模型被对抗样本骗了,预判的物理轨迹就会完全错误,这是自动驾驶系统必须排查的雷。
Expressive co-speech gestures are crucial for natural human-robot interaction, but generating them on physical humanoid robots is difficult because gesture strokes must align with speech emphasis whil...
富有表现力的语音伴随手势对自然人机交互至关重要,但在实体仿人机器人上生成这些手势极其困难,因为动作节拍必须与语音重音精准对齐,同时还要满足物理约束。WaveSync 提出了一种约束波前优化方法解决此问题。
现在的陪护机器人和迎宾机器人手势都很生硬,原因就是动作和声音脱节。WaveSync 解决了语音和手势微秒级对齐的难题,而且考虑了机器人的物理关节极限,做服务机器人的产品经理可以关注下这个算法。
Diffusion and flow-based generative policies provide a powerful policy class for reinforcement learning by inducing rich stochastic exploration through iterative action generation. However, the stocha...
扩散和基于流的生成策略通过迭代动作生成引入丰富的随机探索,增强了强化学习的探索能力。但这种随机性会导致控制不稳定。本研究提出一种方法,将生成式策略引导为稳定的机器控制策略。
扩散模型在提升策略多样性上很强,但收敛性差,容易导致机器人末端抖动。把生成的多模态动作蒸馏成稳定的确定性控制,兼顾了探索效率和部署安全性,做机械臂抓取研发的同学可以借鉴这套范式。
Registering two captures of the same indoor space taken at different times underpins persistent spatial memory for robots and AR systems, yet the realistic version of this task is egocentric and its m...
对同一室内空间在不同时间点的两次捕捉进行配准,是机器人持久空间记忆的基础。PROSE 利用视觉语言模型(VLM),无需额外微调即可解决具有挑战性的第一视角场景配准任务。
直接拿预训练好的VLM做零样本的场景配准,省去了海量数据的微调成本。这意味着扫地机或陪伴机器人换了个视角或隔了几个月再回到同一个房间,依然能认出这是哪里,对实现长期自主运行非常有价值。
Robotic systems routinely encounter conflicting objectives, modeling errors, and degenerate contact conditions that render quadratic programs (QPs) infeasible. Yet most optimization solvers and differ...
机器人系统经常遇到目标冲突、建模误差和退化接触条件,导致二次规划(QP)求解器报错不可行。Elastic ODYN 通过可微优化方法,优雅处理这些不可行约束,保证控制系统持续运行。
做足式机器人底层的控制算法工程师经常遇到QP求解器因为物理极限卡死的情况。这提出的方法就像是给控制器加了缓冲层,遇到死胡同也能算出一个近似解,对于避免机器人在复杂地形中突然宕机死机很实用。
Humanoids deployed in human-centered environments must handle force-interactive tasks, where external contacts introduce unexpected disturbances that disrupt locomotion accuracy and stability. Existin...
部署在以人为中心环境中的人形机器人必须处理受力交互任务。外部接触引入的意外扰动会破坏行走稳定性。ADAPT 提出一种分析性扰动感知策略训练方法,提升人形机器人在外力扰动下的步态稳定性。
人形机器人要进厂搬砖或者进家服务,被撞或者推拉是家常便饭。能在强化学习训练阶段引入解析的扰动模型,让网络学会抵抗突发外力,这比单纯依靠阻抗控制要聪明得多,有望大幅降低人形机器人的摔倒概率。
World models are transitioning from passive visual generators to foundational, operational infrastructure for Physical AI: they must natively acquire world knowledge from heterogeneous experience, mai...
世界模型正从被动的视觉生成器,转变为物理 AI 的基础运行架构。Kairos 提出一个原生技术栈,能够从异构经验中自主获取世界知识,并维持长期的多维一致性,用于物理系统的规划和决策。
大家别再把世界模型当成纯生视频的玩具了。Kairos 这种把世界模型作为物理设备操作系统底座的思路,代表了具身智能的下一个拐点。它意味着机器人的决策不再依赖预设规则,而是基于物理常识的自主推演。
Social robots for children with autism are often evaluated through engagement and interaction quality, assuming the robot acts as a social scaffold. We report a mixed-methods "withdrawal" study that t...
针对自闭症儿童的社交机器人通常通过互动参与度来评估。本研究报告了一项混合方法的“撤回”研究,通过挑战传统的参与度指标,重新审视社交机器人在特定群体中的真实交互体验设计。
做C端 AI 产品的同学可以学学这个思路。与其堆砌功能卷用户的停留时间,不如试试“撤回设计”,看看用户在失去某项 AI 功能后的真实反应。这招能帮你挤掉伪需求的水分,找到真正的产品核心价值。
Effective personalized AI-assisted learning demands systems that can not only generate accurate learner-specific educational materials, but also dynamically adapt their instruction to diverse learners...
有效的个性化 AI 辅助学习不仅需要生成准确的特定教材,还需根据学习者的状态动态调整教学指令。LectūraAgents 结合大模型与多智能体协同,实现教育内容生成与具身教学的动态自适应。
教育大模型不能只停留在屏幕里当个答疑机器。结合具身智能的多智能体框架,意味着未来的辅导机器人能通过观察学生的微表情和做题状态实时调整教学策略,这对于主打高端家教的机器人产品是个降维打击。
The integration of augmented reality (AR) and EEG-based brain-computer interfaces (BCIs) offers a promising path for enabling intuitive control of robots for assistive purposes. However, existing AR b...
增强现实(AR)与基于脑电图(EEG)的脑机接口(BCI)结合,为残障人士提供直观的机器人控制途径。该研究解决现有 AR-BCI 在通用机械臂复杂抓取任务中的局限性,提升了控制的自然度。
渐冻症患者或高位截瘫患者控制的机械臂,最怕的就是操作门槛高。把 AR 的视觉焦点引导和脑电波意图识别结合,极大降低了用户的学习成本,这种多模态交互是医疗康养机器人走向普及的必经之路。