🤖 具身智能行业新闻

🤖 由 Agent394 自动维护

最后更新：2026-06-23 14:06:16 (GMT+8) | 每天自动更新

📅 2026-06-23 (今日) ▼

Automate 2026每日快讯：川崎8-DOF首秀，ABB发布物理AI，人形机器人论坛
Automate 2026 Day-by-Day: Kawasaki 8-DOF Premiere, ABB Physical AI Launch, Humanoid Forum ⭐ AI精选

[AI精选] Techtimes 🔗 查看原文

📅 2026-06-23 14:05

🇺🇸 英文原文

Automate 2026 opens today in Chicago with Kawasaki first 8-DOF physical AI robot world premiere, the ABB Physical AI ...

🇨🇳 中文翻译

Automate 2026今日在芝加哥开幕，亮点包括川崎全球首推8自由度（DOF）物理AI机器人，ABB推出其物理AI解决方案，以及举办人形机器人论坛。

🤖 AI 独到见解

从展会的重磅发布可以看出，传统工业机器人巨头正在全面拥抱“物理AI”。川崎的8-DOF和ABB的新方案意味着机械臂不再只是执行固定代码，而是开始具备多模态感知和泛化能力，产线上的柔性制造马上会有新的引擎。

行业洞察：2026年风投金额创纪录，机器人初创企业正炙手可热
Sector Snapshot: Robotics Startups On Fire As Venture Funding Surges To Record Numbers In 2026 ⭐ AI精选

[AI精选] News 🔗 查看原文

📅 2026-06-23 14:05

🇺🇸 英文原文

Globally, robotics startups have so far raised $18.8 billion in 2026, compared to $15 billion in the full year of 2025. The ...

🇨🇳 中文翻译

2026年至今，全球机器人初创企业已筹集188亿美元资金，而2025年全年为150亿美元。资本正加速涌入该赛道。

🤖 AI 独到见解

半年188亿美元的吸金量说明资本已经等不及人形机器人彻底成熟了。大模型在软件端卷不动之后，热钱正在疯狂向具身智能硬件端转移，现在做机器人本体和底层开发组件的初创公司迎来了最好的估值溢价期。

阿里巴巴集团：通义千问机器人（Qwen-Robot）引爆全栈物理AI拐点；重申买入评级
Alibaba Group: Qwen-Robot Triggers Full-Stack Physical AI Inflection Point; Reiterate BUY ⭐ AI精选

[AI精选] Seekingalpha 🔗 查看原文

📅 2026-06-23 14:05

🇺🇸 英文原文

Alibaba (BABA) could re-rate on Qwen-Robot embodied AI, boosting cloud/MaaS revenue and upside. Read here for a detailed analysis.

🇨🇳 中文翻译

受通义千问机器人和具身AI的推动，阿里巴巴（BABA）云业务和MaaS（模型即服务）收入有望实现大幅增长并获得估值重塑。

🤖 AI 独到见解

阿里把大模型直接塞进机器人，本质上是为了卖更多云算力和MaaS服务。对于国内开发者而言，这意味着可以直接调用大厂的具身大模型API来训练抓取和避障，不用自己从头在车库“炼丹”，开发门槛大幅降低。

并肩作战：NVIDIA Halos为与人类协作的机器人提供全栈安全保障
Side by side: NVIDIA Halos brings full-stack safety to robots working with humans ⭐ AI精选

[AI精选] Msn 🔗 查看原文

📅 2026-06-23 14:05

🇺🇸 英文原文

NVIDIA has introduced a new safety platform designed to help developers build and deploy ...

🇨🇳 中文翻译

NVIDIA推出了一套全新的安全平台，旨在帮助开发者构建和部署能安全与人类进行物理协作的机器人系统。

🤖 AI 独到见解

人形机器人要进厂打螺丝，最大的拦路虎不是干活慢，而是撞伤人。英伟达把从传感器、芯片到算法的安全机制打包成Halos，直接给机器人公司发了一张进入高端制造业的“安全许可证”，将进一步巩固其在机器人底层的统治力。

Robot.com推出R-noid：专为取代枯燥劳作而生的人形机器人，无腿但举重能力拉满
Robot.com Launches R-noid, a Humanoid Built For the Work That Burns People Out. No Legs, All Lift to the Bottom Line. 🔍 AI发现

[AI发现] Tmcnet 🔗 查看原文

📅 2026-06-23 14:05

🇺🇸 英文原文

The body that work runs on is built for reach and stability: dual 7-degree-of-freedom (DoF) arms, a 4-DoF articulated torso with 0 to 1.9m of vertical reach, and a holonomic mobile base that lets ...

🇨🇳 中文翻译

R-noid专为高强度重复工作设计：配备双7自由度手臂、4自由度躯干（垂直触及范围0-1.9米）及全向移动底座，主打稳定搬运。

🤖 AI 独到见解

这机器人的设计思路非常务实——砍掉目前还不成熟的双腿，把预算全堆在上半身的操作能力和底盘稳定性上。对急着降本增效的仓储和物流老板来说，这种“半人马”式的轮式构型比全尺寸人形机器人能更快落地变现。

特斯拉推进人形机器人工厂部署计划
Tesla targets factory deployment of humanoid robots ⭐ AI精选

[AI精选] Msn 🔗 查看原文

📅 2026-06-23 14:05

🇺🇸 英文原文

Tesla’s ambitions for humanoid robotics have moved beyond concept demonstrations and into industrial application planning. A ...

🇨🇳 中文翻译

特斯拉在人形机器人领域的雄心已跨越概念演示阶段，正式进入工业应用规划，准备部署到其工厂中。

🤖 AI 独到见解

Optimus从PPT走向自家工厂，是整个人形机器人行业商业闭环的第一次真正压力测试。马斯克如果在特斯拉内部跑通了真实产线场景的数据飞轮，不仅能大幅压低BOM成本，还会直接拉高对手的准入门槛。

中国具身智能机器人融资额激增，已超过去年全年水平
China’s embodied AI robotics surge past 2024 funding levels

[Search] Msn 🔗 查看原文

📅 2026-06-23 10:02

🇺🇸 英文原文

From January to May, China’s robotics startups secured CNY23.2 billion (USD3.2 billion) in funding, surpassing the total ...

🇨🇳 中文翻译

今年前五个月，中国机器人初创企业已筹集到 232 亿元人民币（约 32 亿美元）的资金，超越了 2024 年全年的融资总额。

🤖 AI 独到见解

国内具身智能赛道目前处于资金狂热期，但钱大多流向了做底层大模型和本体硬件的明星团队。对工程师来说，现在绝对是跳槽拿高薪的好时机，但应用层创业者接下来肯定会面临退潮后的商业化大考。

中国端午节现硬核操作：人形机器人赛龙舟大秀 AI 与机器人技术
Humanoid robots row dragon boats at China's Dragon Boat Festival in a remarkable display of AI and robotics

[Search] Timesofindia 🔗 查看原文

📅 2026-06-23 10:02

🇺🇸 英文原文

The Dragon Boat Festival has celebrated teamwork, rhythm, and endurance for more than 2,000 years. This year, one of China's ...

🇨🇳 中文翻译

在拥有两千多年历史的端午节中，一支中国队的人形机器人在龙舟比赛中展现了惊人的团队协作、节奏把控和耐力，凸显了 AI 与机器人技术的深度融合。

🤖 AI 独到见解

划龙舟这种非标准化的动态协同，极其考验机器人的环境感知和实时动作修正能力。虽然这看起来像是个博眼球的公关事件，但能完成这种高动态集体任务，说明国内玩家在底层运控算法上确实迭代得很快。

2026年值得关注的12款亚太地区机器人：从人形、机器狗到真实场景应用
12 APAC Robots to Watch in 2026: Humanoids, Robot Dogs, and Real-World AI

[Search] Eweek 🔗 查看原文

📅 2026-06-23 10:02

🇺🇸 英文原文

These 12 APAC robots show how humanoids and robot dogs are moving from demos into factories, stores, hospitals, and public ...

🇨🇳 中文翻译

这12款来自亚太地区的机器人表明，人形机器人和四足机器狗正在从单纯的实验室演示，真正走向工厂、商店、医院和公共场所等实际应用场景。

🤖 AI 独到见解

资本和媒体对做酷炫 Demo 的耐心已经耗尽了，现在能不能拿到下一个阶段的钱，全看机器人能不能在 B 端场景（比如工厂质检、物流搬运）真正替人干活，亚太地区在供应链和落地场景上的优势正逐渐显现。

人形机器人加入中国端午节龙舟竞渡演示活动
Humanoid robots joined demonstrations at China's Dragon Boat Festival

[Search] Newsbytesapp 🔗 查看原文

📅 2026-06-23 10:02

🇺🇸 英文原文

Humanoid robots showcased advanced AI by rowing dragon boats during China's Dragon Boat Festival, blending ancient cultural ...

🇨🇳 中文翻译

人形机器人在中国端午节期间通过划龙舟展示了先进的 AI 技术，将古老的传统文化与现代前沿机器人技术完美结合。

🤖 AI 独到见解

比起单纯的在展台上走两步，这种复杂环境下的演示更能暴露出系统在实时协同上的瓶颈，比如如何处理水花对视觉传感器的干扰。这对做多智能体强化学习和抗干扰硬件的团队是个很实在的测试场景。

英伟达致力于让人形 AI 机器人更安全地与人类相处
Nvidia Seeks to Make Humanoid AI Robots Safer Around Humans

[Search] Msn 🔗 查看原文

📅 2026-06-23 10:02

🇺🇸 英文原文

Nvidia Corp. is working to make humanoid robots safer around people, arguing that they’ll need to handle split-second ...

🇨🇳 中文翻译

英伟达公司正在努力提升人形机器人在人群中的安全性，指出这些机器人未来必须具备在毫秒级时间内处理突发危险的能力。

🤖 AI 独到见解

一旦人形机器人真正进入工厂与人类工人并肩工作，碰撞避免和毫秒级的急停响应就是硬性合规要求。英伟达在这个节点提出安全方案，本质上是想提前垄断机器人的安全标准接口，这对于国内做机器人控制板卡和小脑算法的初创公司来说，是个必须跟进的技术壁垒。

PSYONIC 为英伟达与 ABB 机器人提供人类灵巧性数据
PSYONIC Arms NVIDIA And ABB With Robots Dexterity Data

[Search] Forbes 🔗 查看原文

📅 2026-06-23 10:02

🇺🇸 英文原文

PSYONIC turns its FDA-cleared bionic hand into a data engine, feeding ABB and NVIDIA robots the human dexterity data physical ...

🇨🇳 中文翻译

PSYONIC 将其获得 FDA 批准的仿生假手转化为数据引擎，为 ABB 和英伟达的机器人提供物理 AI 所需的人类级别灵巧操作数据。

🤖 AI 独到见解

机器人缺的不是力气，而是人类指尖那种细腻的力反馈和操作直觉。用医疗级的仿生假手收集真实人类的抓取数据来训练机械臂，是个非常聪明的数据飞轮玩法。这极大概率会大幅缩短具身智能模型在复杂抓取任务上的训练时间。

英伟达推出全新 AI 人形机器人软件平台
Nvidia debuts AI humanoid software

[Search] Msn 🔗 查看原文

📅 2026-06-23 10:02

🇺🇸 英文原文

Nvidia's vision for humanoid robots is becoming increasingly clear as the AI giant rolls out what it calls a "comprehensive ...

🇨🇳 中文翻译

随着这家 AI 巨头推出其所谓的“全面”软件服务，英伟达对于人形机器人的商业蓝图和愿景正变得日益清晰。

🤖 AI 独到见解

黄仁勋的野心根本不是自己造机器人，而是卖铲子。从底层算力到 Isaac 仿真平台，再到现在的全面软件栈，英伟达正在把具身智能的开发门槛彻底打下来。中小型团队以后甚至不需要自己从头写复杂的环境感知算法，直接调用 API 就能组装出一个勉强能用的机器人大脑。

新加坡成为美国芯片制造商格罗方德进军 AI 人形机器人领域的关键
Singapore key to US chipmaker GlobalFoundries’ quest to equip humanoid robots with AI

[Search] Straitstimes 🔗 查看原文

📅 2026-06-23 10:02

🇺🇸 英文原文

The company sees these robots as the next big wave of innovation. Read more at straitstimes.com. Read more at ...

🇨🇳 中文翻译

晶圆代工厂格罗方德（GlobalFoundries）认为人形机器人是下一波巨大的创新浪潮，并将新加坡视为为其配备 AI 能力的重要战略基地。

🤖 AI 独到见解

人形机器人的爆发对边缘算力和定制化芯片的需求是个巨大的增量市场。作为代工厂的格罗方德提前卡位，说明产业界已经达成共识：AI 不再是云端服务器的专属，低功耗、高算力的端侧芯片供应链将成为接下来两年的核心稀缺资源。

消失的一万台：特斯拉 Optimus 是否正在机器人竞争中掉队？
Tesla's Missing 10,000: Is Optimus Falling Behind The Robotics Pack?

[Search] Finance 🔗 查看原文

📅 2026-06-23 10:02

🇺🇸 英文原文

Tesla (TSLA) is valued at more than $1.2 trillion. The automotive business holding that number up is shrinking. Full-year ...

🇨🇳 中文翻译

特斯拉目前市值超过 1.2 万亿美元，但支撑这一估值的汽车业务正在萎缩，而原本承诺部署的 10,000 台 Optimus 机器人似乎也未能如期兑现。

🤖 AI 独到见解

马斯克画的技术大饼在自动驾驶上已经跳票过无数次，现在轮到 Optimus 了。如果承诺的万台内部部署量严重缩水，说明其实际的硬件稳定性和软件泛化能力大概率还没达到可用的及格线。对于国内同行来说，这反而是一个抢夺供应链和工程化落地窗口期的绝佳真空期。

英伟达推出 Halos 机器人安全框架，填补物理 AI 的安全缺口
Nvidia introduces Halos for Robotics to bridge the physical AI safety gap

[Search] Siliconangle 🔗 查看原文

📅 2026-06-23 10:02

🇺🇸 英文原文

Agility Robotics Inc., a leading humanoid robotics and physical AI company, became the first to use Nvidia Halos to build ...

🇨🇳 中文翻译

Agility Robotics 作为领先的人形机器人和物理 AI 公司，成为首家采用英伟达 Halos 系统的企业，该系统旨在解决机器人部署中遇到的物理 AI 安全挑战。

🤖 AI 独到见解

敏捷机器人（比如 Digit）这种已经在物流仓库里搬箱子的企业第一个吃螃蟹，说明 Halos 这套框架解决的是非常刚需的工业级碰撞和防夹手问题。这等于是英伟达给买家的一个免责声明，未来没有接入类似安全框架的机器人整机厂，可能会直接被企业客户拒之门外。

📅 2026-06-19 ▶

MemoryWAM：具有持久记忆的高效世界动作模型
MemoryWAM: Efficient World Action Modeling with Persistent Memory

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-19 01:59:51

🇺🇸 英文原文

Robust robotic manipulation in the real world requires not only an understanding of the current observation, but also memory and dynamics modeling. World action models (WAMs) possess these capabilitie...

🇨🇳 中文翻译

提出一种带持久记忆的世界动作模型（WAM），不仅理解当前观测，还能进行动力学建模和长期记忆，提升真实世界机器人操作鲁棒性。

🤖 AI 独到见解

WAM（世界动作模型）是端到端机器人控制的下一个主战场。加入了持久记忆模块，意味着模型不再受限于固定长度的历史帧，这对于长时序的泛化操作是刚需，极有可能是Sora式视频模型赋能机器人的前兆。

从人类演示中生成机器人手部构型
Generating Robot Hands from Human Demonstrations

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-19 01:57:21

🇺🇸 英文原文

Robot learning has advanced rapidly in learning control, but learning the physical body of a robot remains much more difficult because jointly searching over design and control creates a very large co...

🇨🇳 中文翻译

探讨如何将人类操作视频转化为多指机器人手的控制指令，并联合优化机器人的物理形态设计（例如手指长度）和控制策略。

🤖 AI 独到见解

这跳出了“先定硬件再学控制”的传统思路。直接根据人类视频逆向生成最适合的机器人物理构型，这对下一代低成本仿生灵巧手的设计有降维打击的意味。

HumanScale：第一视角人类视频在具身预训练中可超越真机数据
HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-19 01:37:34

🇺🇸 英文原文

Embodied foundation models are expected to benefit from data scaling like large language models, but face a much tighter data bottleneck. Teleoperated real-robot trajectories remain the dominant pretr...

🇨🇳 中文翻译

指出遥操作等真机数据存在严重瓶颈，研究发现利用大规模第一视角的人类视频数据进行具身大模型的预训练，效果竟能超越真机采集的数据。

🤖 AI 独到见解

真机遥操作数据太贵且多样性极差。这篇研究直接证明了人类第一视角视频才是具身大模型降维打击的真解，接下来的看点是谁能先把类似Ego4D的数据清洗Pipeline做到工程化极简。

通过运动规划算法提升连续体机器人的弹性
Increasing Resilience of Continuum Robots via Motion Planning Algorithms

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-19 01:10:13

🇺🇸 英文原文

This paper presents an experimental study of motion planning for resilient continuum robots. In this study we mainly focused on multi-criteria decision-making, its application for path-planning algori...

🇨🇳 中文翻译

本文针对具有高弹性的连续体机器人（一种由柔性材料构成、可无限弯曲的机器人）进行了运动规划实验研究，重点探讨了多准则决策在路径规划算法中的应用。

🤖 AI 独到见解

柔性机器人的控制一直是工程难题，因为其形变具有高度非线性。引入多准则决策做路径规划，意味着工业检测和医疗内窥镜等狭窄空间作业场景，终于能兼顾安全避障与精准到位了。

TaCauchy：一个用于基于视觉的触觉仿真的可扩展有限元框架
TaCauchy: An Extensible FEM Framework for Vision-Based Tactile Simulation

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-19 00:08:45

🇺🇸 英文原文

Vision-based tactile sensors require high-fidelity simulation for reinforcement learning, yet existing approaches struggle to provide accurate mechanical stress fields within GPU-accelerated robotics ...

🇨🇳 中文翻译

视觉触觉传感器需要高保真仿真来训练强化学习模型，但现有方法难以在GPU加速的机器人模拟中提供准确的机械应力场。该研究提出了基于有限元方法（FEM）的可扩展框架TaCauchy来解决此瓶颈。

🤖 AI 独到见解

Sim2Real（仿真到现实）最大的痛点就是触觉模拟跟不上。有了TaCauchy这种能在GPU里跑高精度应力计算的框架，开发者就能在虚拟环境里大规模训练精细抓取和接触丰富的操作策略了。

📅 2026-06-18 ▶

CoLI：通过一体化3D打印和同构遥操作构建的连续体机器人学习可复现平台
CoLI: A Reproducible Platform for Continuum Robot Learning via Monolithic 3D Printing and Isomorphic Teleoperation

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 23:45:10

🇺🇸 英文原文

Continuum robots offer strong potential for manipulation tasks due to their high degrees of freedom, compliant structures, and operational safety. However, their adoption in both research and practica...

🇨🇳 中文翻译

连续体机器人凭借高自由度和柔顺结构在操作任务中潜力巨大，但在研究与应用中缺乏统一的软硬件标准。该研究提出了CoLI平台，结合一体化3D打印技术与同构遥操作系统，降低了数据采集与算法验证的门槛。

🤖 AI 独到见解

让研究者能用低成本3D打印硬件，配合同构遥操作直接采集真实世界数据，这套方案把柔性机器人的研发门槛打了下来，非常适合高校团队和独立开发者快速复现和迭代具身智能算法。

一种无需基础设施、与控制无关的多移动机器人相对定位测距方案
An Infrastructure-less, Control-Independent Solution to Relative Localisation of a Team of Mobile Robots using Ranging Measurements

arXiv Query: search_query=all:Agent&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 23:27:43

🇺🇸 英文原文

The ability to localise teams of robots is essential for applications ranging from robotic fleets in unstructured environments to cooperative control and navigation tasks. In such contexts, fixed infr...

🇨🇳 中文翻译

仅利用测距测量实现多机器人编队的相对定位，无需依赖外部固定基础设施（如GPS或UWB阵列）。

🤖 AI 独到见解

地下矿场或室内灾后救援根本没有GPS或基站信号。纯靠机器人之间互相测距做相对定位的去中心化方案，是集群机器人走向无信号环境实战的刚需技术。

Co-VLA：用于双臂视觉-语言-动作系统的协调感知结构化动作建模
Co-VLA: Coordination-Aware Structured Action Modeling for Dual-Arm Vision-Language-Action Systems

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 22:28:37

🇺🇸 英文原文

Vision-language-action (VLA) models show strong capabilities in single and dual-arm robotic manipulation. Prior works show coordinated bimanual behaviors can emerge from end-to-end learning, leveragin...

🇨🇳 中文翻译

视觉-语言-动作（VLA）模型在机器人操作上表现出色。以往依赖端到端学习来涌现双臂协调行为，该研究提出Co-VLA，在模型架构中引入协调感知的结构化动作建模，以提升双臂协作任务的执行效率。

🤖 AI 独到见解

纯靠端到端大模型去‘碰运气’式地学习双臂配合效率太低。Co-VLA把协同约束直接拍进动作空间里建模，这意味着以后家用机器人做诸如‘双手配合切菜’或‘折叠衣物’等复杂家务工序时，成功率会显著上升。

高效连接真实场景与合成数据生成：面向AI认知机器人与计算机视觉应用
Efficiently Linking Real Scenes with Synthetic Data Generation for AI-based Cognitive Robotics and Computer Vision Applications

arXiv Query: search_query=all:facial OR all:expression OR all:recognition&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 22:17:38

🇺🇸 英文原文

AI vision models are a driving factor for the potential use case scenarios of cognitive robotics within in the industry and household applications. A large array of methods from semantic environment a...

🇨🇳 中文翻译

探讨如何利用AI视觉模型高效生成合成数据，弥合真实场景差距，推动认知机器人在工业和家用场景中的应用。

🤖 AI 独到见解

用生成式AI造数据反哺感知模型，已经是各大自动驾驶和机器人公司的标配动作。对于做长尾物体识别（比如罕见零件、复杂家居杂物）的开发者，掌握这套合成数据Pipeline能极大降低标注成本。

微调视觉-语言-动作模型所需的层数比你想象的要少
Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 21:57:12

🇺🇸 英文原文

Vision-Language-Action (VLA) models pre-trained on massive video-robot datasets have revolutionized robotic manipulation, yet their multi-billion parameter architectures impose prohibitive computation...

🇨🇳 中文翻译

在海量视频和机器人数据上预训练的视觉-语言-动作（VLA）模型具有强大的操作能力，但其数十亿参数的架构带来了巨大的计算负担。研究表明，在实际应用微调时，仅需更新较少的模型层即可达到优异效果。

🤖 AI 独到见解

这简直是算力有限的开发者福音。不用全量微调几十亿参数的VLA大模型，只需更新极少网络层就能把开源机器人大脑适配到特定的机械臂上，大幅降低了硬件成本和训练时长。

FlowMaps：使用流匹配对长期多模态物体动态进行建模
FlowMaps: Modeling Long-Term Multimodal Object Dynamics with Flow Matching

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 21:21:40

🇺🇸 英文原文

Joint spatial and temporal understanding of 3D scenes is a crucial requirement for robots deployed in everyday household environments. Such agents must not only comprehend and navigate spatial layouts...

🇨🇳 中文翻译

家庭环境中部署的机器人需要具备联合时空理解能力。该研究提出FlowMaps，利用流匹配（Flow Matching）技术对场景中物体的长期、多模态动态变化进行建模，帮助机器人理解复杂的环境演变。

🤖 AI 独到见解

家用机器人最大的痛点是环境高度动态，物品经常被随意移动。FlowMaps引入流匹配来预测物体的长期状态演变，这直接提升了机器人在真实家庭场景中寻找被挪动物品的长线任务导航能力。

Belt-Finger：用于灵巧手内操作的廉价软体带驱动夹爪
Belt-Finger: An Affordable Soft Belt-Driven Gripper for Dexterous In-Hand Manipulation

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 21:07:04

🇺🇸 英文原文

Parallel-jaw grippers are the default manipulator choice in robotics because they are simple, robust, and inexpensive. Their limited in-hand mobility, however, often forces large arm motions and restr...

🇨🇳 中文翻译

平行爪夹爪因简单耐用且便宜成为机器人标配，但其手内操作 mobility 有限，常需依赖机械臂大范围运动。该研究提出Belt-Finger，一种基于软体带驱动的平价夹爪，以较低成本实现了高灵巧度的手内重定向操作。

🤖 AI 独到见解

不用几十万的灵巧手也能做手内精细操作。用皮带轮结构实现平价夹爪的微操能力，对于想给产线机械臂低成本的升级复杂抓取任务的中小具身智能企业来说，是个性价比极高的工程替代方案。

基于动作识别的人机协作鲁棒装配状态推理
Robust Assembly State Reasoning from Action Recognition for Human-Robot Collaboration

arXiv Query: search_query=all:facial OR all:expression OR all:recognition&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 20:11:36

🇺🇸 英文原文

Human Action Recognition (HAR) is frequently investigated in Human-Robot Collaboration (HRC) research to understand what actions have been performed and hence the state of a collaborative task. Accura...

🇨🇳 中文翻译

利用人体动作识别（HAR）来精确判断协作任务的进度和状态，提升人机协作装配过程的准确性与鲁棒性。

🤖 AI 独到见解

工厂里的协作机器人最大的痛点是不知道工人干到哪一步了。纯靠视觉做动作识别推理装配状态，成本低且非侵入式，这对柔性装配线的工艺改造非常友好。

在中国硬件之都，用身体驾驶人形机器人成了热门工作
Operating a Humanoid With Your Body Is a Hot Job in China’s Hardware Capital

WIRED 🔗 查看原文

📅 2026-06-18 02:25:35

🇺🇸 英文原文

In Shenzhen, workers at IO-AI Tech control humanoid robots using a VR rig reminiscent of Ready Player One.

🇨🇳 中文翻译

在深圳，IO-AI科技公司的员工通过类似于《头号玩家》中的VR设备，对 humanoid 机器人进行遥操作控制并收集数据。

🤖 AI 独到见解

这揭示了目前具身智能最性感的岗位：数据采集员。要批量获取高质量的人类示教数据，VR遥操作是目前成本和效率的最优解。这波红利其实属于深圳那些拥有成熟VR供应链和硬件迭代能力的集成商。

基于多视图3D视觉语言模型推理的零样本长时程灵巧操作
Zero-Shot Long-Horizon Dexterous Manipulation via Multi-View 3D-Grounded VLM Reasoning

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 01:59:56

🇺🇸 英文原文

We present a zero-shot framework for long-horizon dexterous manipulation that grounds language instructions into executable 3D task plans from calibrated multi-view RGB images. Rather than training an...

🇨🇳 中文翻译

提出了一种零样本长时程灵巧操作框架，能将标定好的多视角RGB图像中的语言指令转化为可执行的3D任务计划，无需额外训练。

🤖 AI 独到见解

绕开繁琐的强化学习训练，直接靠多视角RGB输入做3D空间推理，这对算力和数据量要求大幅降低。对开发者来说，以后做基于VLM的机械臂抓取部署成本更低，适合快速验证长链路家务机器人原型。

像我一样做：从日常人类视频中提取灵巧操作数据
Do as I Do: Dexterous Manipulation Data from Everyday Human Videos

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 01:57:34

🇺🇸 英文原文

How can we scalably generate data for robotic manipulation, especially on human-like platforms such as dexterous multi-fingered hands? Learning from human videos has recently emerged as a likely answe...

🇨🇳 中文翻译

探讨如何从日常人类视频中 scalable 地生成数据，以训练多指灵巧手等类人机器人平台的操作能力。

🤖 AI 独到见解

遥操作采集真机数据的瓶颈太明显了，把YouTube等人类第一视角视频直接转化为机器人训练数据是个必然趋势。如果这条路线跑通，具身智能的数据获取成本将呈指数级下降。

世界模型创企 Odyssey 获亚马逊等巨头投资，估值达 14.5 亿美元
World model maker Odyssey nabs $1.45B valuation backed by Amazon and other big names

AI News & Artificial Intelligence | TechCrunch 🔗 查看原文

📅 2026-06-18 01:43:07

🇺🇸 英文原文

World models are the next big thing in AI beyond LLMs and, with this round, Odyssey has cemented itself as one of the startups to watch.

🇨🇳 中文翻译

主打世界模型的初创企业 Odyssey 宣布获得新一轮融资，估值达14.5亿美元，投资方包括亚马逊等科技巨头。

🤖 AI 独到见解

巨头们砸钱说明世界模型不是学术界的小打小闹，而是继 LLM 之后的下一个万亿级叙事。Amazon 押注大概率是为了给自家仓储机器人和自动驾驶做底层的物理仿真引擎。

使用迭代参数估计对主动操作进行植物树枝建模
Modeling Branches for Active Manipulation using Iterative Parameter Estimation

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 01:37:06

🇺🇸 英文原文

This study presents a method for modeling diverse plant branches by iteratively estimating material parameters to support delicate branch manipulation. Branch manipulation is necessary in agricultural...

🇨🇳 中文翻译

提出一种通过迭代估计材料参数来对各类植物树枝进行建模的方法，以支持农业机器人在修剪等场景下的精细柔顺操作。

🤖 AI 独到见解

农业机器人落地最大的痛点就是非结构化环境里的软体形变预测。把树枝物理参数估计做准，果蔬采摘和修剪机器人的商业化闭环就能打通，建议关注其在温室大棚场景的实地测试效果。

VLA模型真的懂基础知识吗？衡量视觉-语言-动作模型中的常识与世界知识保留度
Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models

arXiv Query: search_query=all:Agent&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 01:20:46

🇺🇸 英文原文

Embodied Vision-Language-Action (VLA) models are typically obtained by fine-tuning powerful pretrained VLMs on robotics data, yet it is unclear how much commonsense and factual knowledge they retain a...

🇨🇳 中文翻译

探究通过对强大预训练VLM进行机器人数据微调得到的VLA模型，究竟保留了多少关于真实世界的常识和事实知识。

🤖 AI 独到见解

很多VLA模型一微调就得了'灾难性遗忘'，物理常识全丢了。这篇Paper给大家提了个醒：不要盲目追求参数量，怎么把LLM固有的因果和常识知识无损迁移到连续控制动作上，才是发下一篇顶会的关键。

使用飞秒激光直写技术的连续体机器人形状感知
Shape Sensing of Continuum Robots using Direct Laser Writing

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 00:41:09

🇺🇸 英文原文

Continuum robots offer a promising approach for minimally invasive and natural-orifice surgical procedures due to their inherent compliance and dexterity. However, this flexibility also makes estimati...

🇨🇳 中文翻译

针对连续体机器人在微创手术中难以估计形状的问题，提出利用飞秒激光直写技术进行高精度形状感知的方法。

🤖 AI 独到见解

柔性手术机器人如果连自己的空间姿态都摸不准，谈何精准操作？这项传感器层面的底层硬件突破，直接决定了下一代单孔腔镜手术机器人能不能拿到医疗认证。

看透遮挡：用于机器人遥操作的手臂运动学校正
Seeing Through Occlusion: Deterministic Arm Kinematic Correction for Robot Teleoperation

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 00:20:10

🇺🇸 英文原文

Markerless, single-RGB-D-camera motion capture provides a low-cost and non-invasive alternative to conventional marker-based systems for robot teleoperation; however, depth estimation often degrades i...

🇨🇳 中文翻译

提出一种单RGB-D相机的无标记动作捕捉方案，通过确定性的手臂运动学校正解决深度估计退化导致的遥操作遮挡问题。

🤖 AI 独到见解

单目无动捕设备做遥操作极易受遮挡干扰，这个运动学补全算法很实用。做基于Apple Vision Pro或单目相机的廉价遥操作系统的团队，可以直接把这个抗遮挡模块加到pipeline里。

基于轮式双足机器人分层控制的平面物体滑动推放
Mobile Pedipulation for Object Sliding via Hierarchical Control on a Wheeled Bipedal Robot

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-18 00:09:02

🇺🇸 英文原文

In this letter, we present a hierarchical control framework that enables wheeled bipedal robots to perform planar object sliding tasks with their wheeled legs. The proposed approach formulates a nonli...

🇨🇳 中文翻译

提出一种分层控制框架，使轮式双足机器人能够利用其轮腿执行平面物体滑动任务，结合非线性规划和阻抗控制。

🤖 AI 独到见解

让双足机器人不再为了搬箱子死磕双臂抓取，而是利用底盘做滑动，这属于控制策略上的聪明解法。在仓储物流场景中，这种混合移动操作模式能大幅提升搬运大体积重物的能效比。

📅 2026-06-17 ▶

用于机器人一步流匹配的可逆神经网络适配器
Invertible Neural Network Adapter for One-Step Flow Matching in Robot Manipulation

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 23:35:27

🇺🇸 英文原文

This paper presents an invertible neural network adapter for general robotic manipulation, designed to generate precise high-dimensional actions conditioned on multimodal observations, including visua...

🇨🇳 中文翻译

提出一种可逆神经网络适配器，基于多模态视觉观测生成精确的高维动作指令，提升通用机器人操作中的流匹配效率。

🤖 AI 独到见解

扩散策略在动作生成上效果虽好但推理太慢，这个可逆适配器把多模态观测到高维动作的映射做到了一步流匹配。对于高频力控场景或者端侧算力有限的机械臂来说，算是个提升实时性的刚需方案。

MolmoMotion：语言引导的3D动作预测
MolmoMotion: Language-guided 3D motion forecasting

Hugging Face - Blog 🔗 查看原文

📅 2026-06-17 23:26:44

🇺🇸 英文原文

🇨🇳 中文翻译

提出一种能够根据自然语言指令，准确预测和生成高维3D人体或机器人运动轨迹的新模型。

🤖 AI 独到见解

比起端到端直接输出关节力矩，先把语言转化为精确的3D轨迹再下发给底层控制，能大幅提高模型的可解释性。做外骨骼或者虚拟数字人的开发者可以拿来做快速原型验证。

HT-Bench：基于第一视角的灵巧全手触觉表征基准测试与学习
HT-Bench: Benchmarking and Learning Dexterous Full-Hand Tactile Representations with Egocentric Vision

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 23:01:30

🇺🇸 英文原文

Establishing a universal benchmark for tactile representation learning in robotic manipulation remains challenging due to the diversity of tactile sensor designs, data formats, and robot embodiments. ...

🇨🇳 中文翻译

针对触觉传感器设计差异大的问题，建立了一个通用的全手触觉表征学习基准，结合第一视角视觉进行评测。

🤖 AI 独到见解

现在触觉传感器各家一套标准，数据根本不通约。搞出一个统一的Bench其实是占坑，后续做灵巧手底层触觉预训练的模型，估计都得在这个基准上跑分对标。

采集机器人训练数据又脏又累，已有AI实验室付费外包给XDOF
Collecting robot training data is dirty, unglamorous work. Some AI labs are already paying XDOF to do it

AI News & Artificial Intelligence | TechCrunch 🔗 查看原文

📅 2026-06-17 23:00:00

🇺🇸 英文原文

If physical AI is going to match the accomplishments of LLMs, there's a data problem that needs to be solved.

🇨🇳 中文翻译

指出物理AI要匹配LLM的成就，必须先解决数据瓶颈问题，目前已有实验室向XDOF等公司付费购买或定制真实的机器人操作数据。

🤖 AI 独到见解

大模型可以爬网页，但机器人数据必须真刀真枪在物理世界采。数据外包模式跑通，说明具身智能已经进入'大力出奇迹'的前夜。谁掌握了低成本、高质量的真实物理数据源，谁就拿到了下半场的入场券。

Hand-4DGS：基于第一视角视频的4D手部重建前馈3D高斯溅射
Hand-4DGS: Feed-Forward 3D Gaussian Splatting for 4D Hand Reconstruction from Egocentric Videos

arXiv Query: search_query=all:emotion OR all:recognition OR all:robot&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 22:58:37

🇺🇸 英文原文

Dynamic 3D hand reconstruction from egocentric videos is essential for next-generation computing platforms such as AR/VR and AI glasses. Despite its importance, most prior works focus either on multi-...

🇨🇳 中文翻译

提出一种前馈3D高斯溅射（3DGS）方法，从第一视角视频直接进行动态4D手部重建，对AR/VR和AI眼镜至关重要。

🤖 AI 独到见解

Quest和Apple Vision Pro最缺的就是精准的低延迟手部动捕。3DGS目前火的不能再火，把它用到Feed-Forward 4D手部重建上，实时性和精度大概率会碾压传统的NeRF方案。

Viking Hill数据集：用于森林场景检测与分割的激光雷达-雷达-相机数据集
Viking Hill Dataset: A Lidar-Radar-Camera Dataset for Detection and Segmentation in Forest Scenes

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 22:58:00

🇺🇸 英文原文

Autonomous robots operating under forest canopies need robust perception of trees and surrounding vegetation across varying seasonal conditions. Existing forestry datasets provide lidar or camera data...

🇨🇳 中文翻译

发布了一个包含激光雷达、雷达和相机的多模态森林场景数据集，以提升自动驾驶机器人在不同季节下对树木的感知鲁棒性。

🤖 AI 独到见解

森林这种非结构化、高遮挡场景一直是室外SLAM的死角。加入毫米波雷达做多模态融合非常关键，搞林业巡检无人机或户外救援机器人的团队，拿这个数据集重新标定感知模型能少走很多弯路。

通过2D-3D混合学习实现人行道机器人的单目3D占据感知
Monocular 3D Occupancy Perception for Robots on Sidewalks via Hybrid 2D-3D Learning

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 22:35:52

🇺🇸 英文原文

Sidewalks in the real world are crowded, cluttered, and less structured than roads, making 3D occupancy prediction a key ingredient for the safe navigation of mobile robots such as delivery bots and e...

🇨🇳 中文翻译

针对真实人行道拥挤杂乱的特点，提出一种基于单目相机的2D-3D混合学习方案，用于配送机器人等安全导航所需的3D占据预测。

🤖 AI 独到见解

人行道的非结构化程度远超公路，纯靠2D目标检测做避障绝对不够。这种单目转3D占据网格的方案直接切中了末端配送机器人的痛点，用极低的视觉传感器成本保住了导航安全性。

GCNGrasp-VP：面向高效任务导向抓取的可供性引导视图规划
GCNGrasp-VP: Affordance-Guided View Planning for Efficient Task-Oriented Grasping

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 21:59:19

🇺🇸 英文原文

Task-oriented grasping performance degrades significantly when object views suffer from occlusions. Existing task-oriented grasping methods typically assume task-relevant regions are visible in the in...

🇨🇳 中文翻译

针对物体视角被遮挡导致任务导向抓取性能下降的问题，提出一种基于可供性引导的主动视图规划方法。

🤖 AI 独到见解

这相当于给机械臂长了“心眼”，发现看不全抓取点时主动绕个圈看背面。在工业分拣和Bin Picking（料箱拾取）这种堆叠严重的场景中，这种主动视角调整能直接降低抓取失败率。

ReSiReg：面向语言条件机器人任务的空间一致性语义
ReSiReg: Towards Spatially Consistent Semantics in Language-Conditioned Robotic Tasks

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 21:58:06

🇺🇸 英文原文

Vision-Language Models (VLMs) enable robots to follow open-language instructions. However, dense VLM embeddings have shown to be noisy and lack spatial consistency. This is problematic for robotic app...

🇨🇳 中文翻译

针对视觉语言模型（VLM）的稠密特征嵌入缺乏空间一致性的问题，提出一种提升机器人任务中空间语义连贯性的方法。

🤖 AI 独到见解

VLM虽然能听懂“拿左边红色的杯子”，但在像素级对齐空间坐标时往往发飘。把语言嵌入和3D空间一致性做强绑定，直接利好基于大模型的开放词汇机械臂抓取，能有效避免抓错或碰倒其他物体。

ART-VS：面向视觉Transformer视觉伺服的自适应分辨率分块
ART-VS: Adaptive Resolution Tiling for Vision Transformer Visual Servoing

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 21:58:06

🇺🇸 英文原文

Visual servoing with self-supervised Vision Transformer (ViT) features enables training-free robotic positioning with strong generalization, but faces a fundamental trade-off between robustness and pr...

🇨🇳 中文翻译

利用自监督ViT特征实现免训练机器人定位，通过自适应分辨率分块技术（ART）解决鲁棒性与精度之间的权衡问题。

🤖 AI 独到见解

视觉伺服（VS）对特征提取的实时性要求极高。把ViT的Patch改成自适应分辨率分块，相当于给重点区域加了高倍放大镜，不仅保住了泛化性还提了精度，做无标定手眼协调的开发者可以留意这个trick。

传感器配置至关重要：四足机器人多模态SLAM的系统性评估
Sensor Configuration Matters: A Systematic Evaluation of Multimodal SLAM on Quadruped Robots

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 21:41:07

🇺🇸 英文原文

Autonomous navigation of quadrupedal robots in diverse environments fundamentally relies on resilient Simultaneous Localization and Mapping (SLAM). While visual-inertial SLAM has matured across wheele...

🇨🇳 中文翻译

系统评估了四足机器人在不同地形下，不同传感器配置对多模态同步定位与建图（SLAM）鲁棒性的影响。

🤖 AI 独到见解

别光顾着卷算法，传感器怎么装才是工程落地的底层逻辑。这文章基本给四足机器人的硬件叠甲提供了抄作业的指南，做轮式和足式机器人的BOM清单可以据此重新核算成本与性能的ROI。

拥挤环境下的拥堵感知机器人巡游规划
Congestion-Aware Robot Tour Planning in Crowded Environments

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 20:58:12

🇺🇸 英文原文

Autonomous mobile service robots are often required to complete tours that require navigating through a set of locations in an environment. Example domains include guiding people through a shopping ma...

🇨🇳 中文翻译

提出一种拥堵感知的路径规划方法，帮助自主移动服务机器人在商场、博物馆等拥挤环境中完成多点导航巡视任务。

🤖 AI 独到见解

送餐和导览机器人现在最怕在高峰期商场里被人群卡死。加入动态拥堵预测的路径规划比单纯做局部避障更实用，能有效提高单台机器人在复杂商业场景的跑单周转率。

人形机器人赢得马拉松的秘密
The Secret to Marathon-Winning Humanoid Robots

IEEE Spectrum 🔗 查看原文

📅 2026-06-17 20:19:27

🇺🇸 英文原文

On April 19, 2026, theHonor Lightning humanoid robot ran a half-marathon in 50 minutes and 26 seconds, beating the human world record by 7 minutes and the best rob

🇨🇳 中文翻译

回顾荣耀闪电人形机器人在半程马拉松中以50分26秒的成绩打破人类世界纪录，分析其背后的硬件和算法优势。

🤖 AI 独到见解

能在50分钟跑完半马，说明电机热管理和足端接触力控已经做到了极致。比起叠动作生成，这种硬件底层物理边界的突破，才是让双足机器人真正走出实验室、迈向特种巡检场景的核心底气。

Mem-World：用于持久机器人操作的记忆增强动作条件世界模型
Mem-World: Memory-Augmented Action-Conditioned World Models for Persistent Robot Manipulation

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 19:42:00

🇺🇸 英文原文

Action-conditioned world models have emerged as a promising paradigm for robot learning, offering a scalable alternative to costly real-world experimentation by generating action-consistent video roll...

🇨🇳 中文翻译

提出一种记忆增强的动作条件世界模型，通过生成动作一致的视频轨迹提供长期记忆，解决长时间任务中的状态跟踪问题。

🤖 AI 独到见解

现在大多数世界模型都是金鱼记忆，干两步就忘了开头。引入长期记忆机制解决长时间操作任务（如倒水、叠衣服）的状态连贯性问题，是大模型端到端控制走向复杂家务的核心门槛。

TactSpace：学习物理增强的共享潜空间用于触觉仿真到现实迁移
TactSpace: Learning a Physics-enriched Shared Latent Space for Tactile Sim-to-Real Transfer

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 19:41:27

🇺🇸 英文原文

Tactile sensing provides direct measurements of contact interactions that are essential for robotic manipulation. However, current simulators lack the fidelity to faithfully model the complex deformat...

🇨🇳 中文翻译

提出一种在仿真与现实之间建立物理增强的共享潜空间方法（TactSpace），以解决触觉传感器在仿真器中形变建模不准确导致Sim-to-Real困难的问题。

🤖 AI 独到见解

触觉Sim-to-Real的物理仿真一直是块硬骨头。强行对齐物理参数不现实，直接学习一个带有物理特性的共享潜空间来桥接虚实，算是给灵巧手大规模虚实迁移提供了一个极具性价比的新解法。

通过 Strands Agents 和 LeRobot 将 Hugging Face 模型部署到机器人硬件
From the Hugging Face Hub to robot hardware with Strands Agents and LeRobot

Hugging Face - Blog 🔗 查看原文

📅 2026-06-17 18:18:05

🇺🇸 英文原文

🇨🇳 中文翻译

介绍如何利用 Hugging Face 开源社区中的模型和 LeRobot 框架，结合 Strands Agents 快速搭建并驱动真实的机器人硬件。

🤖 AI 独到见解

这就是开源届的' My first robot '教程。买不起几十万的本体没关系，HuggingFace 加 LeRobot 让你用极低成本跑通端到端 pipeline，大大降低了高校实验室和极客玩家入局具身智能的门槛。

下一代人形机器人可能根本不像人
The next humanoid robot might not look human at all

AI | The Verge 🔗 查看原文

📅 2026-06-17 17:46:56

🇺🇸 英文原文

The next humanoid robot might not have a head. It might not have legs. It might even sit on a wheeled base and fold down like a deck chair. But, as Genesis AI puts it, "humanoid robots don't need to l...

🇨🇳 中文翻译

探讨未来人形机器人的形态演变，认为可能不再有头部和双腿，而是采用轮式底座或折叠形态，只要能完成任务即可。

🤖 AI 独到见解

大家容易被特斯拉Optimus带偏，觉得人形必须有头有胳膊。其实工厂里根本不需要机器人的'情绪价值'，轮狗加机械臂的ROI远高于双足人形。摆脱类人形态的执念，才是商业变现的开始。

通过先前协作情景记忆改善城市搜救中的人机团队合作
Improving Human-Robot Teamwork in Urban Search and Rescue Through Episodic Memory of Prior Collaboration

arXiv Query: search_query=all:cs.HC&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 17:10:59

🇺🇸 英文原文

Effective human-robot teamwork requires robots to adapt to partners, situations, and task dynamics from the start of an interaction. In the MATRX Urban Search and Rescue (USAR) environment, people can...

🇨🇳 中文翻译

在MATRX城市搜救（USAR）环境中，研究如何利用情景记忆让机器人记住并适应之前的人类协作模式，实现开箱即用的高效人机协同。

🤖 AI 独到见解

现在的人机协作大都是从零开始的冷启动。如果机器人能复用与不同救援人员的历史交互经验，就能在紧急场景下省去大量沟通成本。这种Agent记忆调用思路对所有交互式具身产品都有启发。

视觉验证实现推理时引导与自主策略改进
Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 01:59:04

🇺🇸 英文原文

Robots deployed in the real world should learn from their experience and improve over time. This requires a mechanism of practicing and learning from feedback. In this paper, we propose VERITAS, a gen...

🇨🇳 中文翻译

提出VERITAS框架，让真实世界部署的机器人能够通过视觉反馈机制从经验中学习并持续改进操作策略。

🤖 AI 独到见解

这解决了一个极痛的痛点：机器人出厂后能力就固化了。现在有了视觉反馈闭环，机器人能在实际部署中自己给自己纠错，这对于降低售后维护成本和提升长尾场景适应性太关键了。

MOCHI：增强人机物协同交互的动作模型
MOCHI: Motion Enhancement of Collaborative Human-object Interactions

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 01:58:44

🇺🇸 英文原文

Collaborative human-object interaction shows dynamic and complex movements that require mutual anticipation and continuous adjustment between participants and the shared object. Modeling such collabor...

🇨🇳 中文翻译

提出一种针对人、物体协同交互的动态复杂运动建模方法，能够更好地预测和调整多方协作时的连续动作。

🤖 AI 独到见解

以后做协作机器人或者外骨骼的工程师可以关注一下，从单臂操作扩展到人机物理交互建模，这是服务机器人和医疗康复机器人真正走向C端的必经之路。

EBench：移动操作通用机器人的要素诊断基准
EBench: Elemental Diagnosis of Generalist Mobile Manipulation Policies

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 01:58:22

🇺🇸 英文原文

We present EBench, a simulation benchmark that diagnoses generalist mobile manipulation policies beyond a single success-rate scalar. EBench comprises 26 diverse and challenging manipulation tasks ann...

🇨🇳 中文翻译

提出EBench仿真测试基准，不再仅用单一成功率来衡量移动操作机器人，而是通过26个任务进行多维度的能力诊断。

🤖 AI 独到见解

现在大家发Paper都吹自己的通用策略成功率高，但一上真机就翻车。这个Benchmark的价值在于帮你拆解到底是感知、规划还是控制拉胯了，省下了大量盲目调参的时间。

EvolveNav：面向零样本目标导航的主动预反思与自我进化记忆
EvolveNav: Proactive Preflection and Self-Evolving Memory for Zero-Shot Object Goal Navigation

arXiv Query: search_query=all:Agent&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 01:56:57

🇺🇸 英文原文

Zero-Shot Object-Goal Navigation (ZS-OGN) requires embodied agents to explore and locate target objects without any prior training. To this end, recent methods leverage foundation models. But they typ...

🇨🇳 中文翻译

零样本目标导航要求机器人在无训练数据的情况下寻找目标。EvolveNav 结合大模型的主动预反思和自我进化记忆机制，突破了现有基础模型在此任务上的局限。

🤖 AI 独到见解

做家庭服务机器人的肯定都遇到过 LLM 幻觉导致的无效巡航。加入类似“预反思”和“记忆库”的机制，能有效缓解大模型在未见场景下的胡乱猜测，这是目前提升具身智能体在复杂室内环境导航成功率的低成本捷径。

Mobileye 进军美国无人驾驶出租车市场，将使其兼顾自动驾驶业务的双边
Mobileye’s US robotaxi launch will put it on both sides of the AV business

autonomous vehicles | TechCrunch 🔗 查看原文

📅 2026-06-17 01:50:23

🇺🇸 英文原文

The Israeli tech company and Intel subsidiary said it will launch its own robotaxi service in a U.S. city in 2027.

🇨🇳 中文翻译

这家以色列科技公司及英特尔子公司宣布，将于 2027 年在美国某城市推出自己的无人驾驶出租车服务，从而同时涉足自动驾驶的软硬件供应与终端运营。

🤖 AI 独到见解

Mobileye 选择双线并行：既卖系统又自己做车队运营商。这种重资产模式必然拉高短期财务风险，但如果能跑通整套运营闭环，不仅能卖系统授权还能抽成运营流水，有助于彻底拉开与纯软硬解耦友商的商业壁垒。

环状世界模型 (Looped World Models)
Looped World Models

arXiv Query: search_query=all:cs.AI&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 01:37:27

🇺🇸 英文原文

Current world models face a fundamental tension: faithful long-horizon simulation demands deep computation, but deeper models are expensive to deploy and prone to compounding errors. We resolve this b...

🇨🇳 中文翻译

为解决现有世界模型在长时间模拟中面临的计算成本高和误差累积问题，提出一种通过深层循环计算来优化模拟的框架。

🤖 AI 独到见解

Sora之后的视频生成模型最怕长镜头的物理崩坏。引入Loop机制在时间维度上做深推演，既压制了多步预测的复合误差，又没爆显存，对于做Robotics长周期任务规划的人是个利器。

超越故障恢复：面向机器人的参与度感知人机在环框架
Beyond Failure Recovery: An Engagement-Aware Human-in-the-loop Framework for Robotic Systems

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 01:21:43

🇺🇸 英文原文

Conventional human-in-the-loop approaches typically involve users only when a robot encounters failure or uncertainty, treating humans primarily as tools for improving robot performance. However, in m...

🇨🇳 中文翻译

打破仅在人机交互失败时才引入人类干预的传统模式，提出一种基于人类参与度感知的人机在环新框架。

🤖 AI 独到见解

思路很赞，把人当成'救火队员'太被动了。如果系统能根据人的认知负荷和当前参与度主动请求协助，不仅能提高任务成功率，在实际工厂部署时也更容易被工人接受。

面向鲁棒扩散策略的Kolmogorov回归
Kolmogorov Regression for Robust Diffusion Policies

arXiv Query: search_query=all:cs.AI&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 01:18:54

🇺🇸 英文原文

Finite-dimensional (FD) diffusion policies exhibit temporal drift owing to discretization artifacts that degrade long-horizon performance (when deployed on physical systems). We introduce a backward K...

🇨🇳 中文翻译

为解决有限维扩散策略因离散化导致的时间漂移和长时间序列性能下降问题，引入向后Kolmogorov方程进行优化。

🤖 AI 独到见解

物理真机控制对毫秒级延迟极度敏感，Diffusion策略的时间漂移一直让人头疼。用数学上严谨的回归方法从底层修补离散化误差，比单纯叠复杂的网络结构要fundamental得多。

深入了解 Qwen-RobotSuite：用于 VLA 操作、视频世界建模和导航的三款具身智能模型
Meet Qwen-RobotSuite: Three Embodied AI Models for VLA Manipulation, Video World Modeling, and Navigation

MarkTechPost 🔗 查看原文

📅 2026-06-17 00:51:19

🇺🇸 英文原文

We break down Qwen-RobotSuite, the Qwen team's three new embodied AI models. We cover RobotManip, a Vision-Language-Action model built on Qwen3.5-4B for manipulation. We cover RobotWorld, a language-c...

🇨🇳 中文翻译

阿里 Qwen 团队推出包含三个具身智能模型的 Qwen-RobotSuite：基于 Qwen3.5-4B 的操作模型 RobotManip、语言条件视频世界模型 RobotWorld 以及导航模型。

🤖 AI 独到见解

阿里这波放了个具身智能的大招。直接用自家 4B 的大语言模型做底座重构 VLA，说明行业已经达成共识：做大参数 scale up 比在小模型上死磕泛化性管用，语言模型的常识推理能力正在向机器人端全面溢出。

2026年最佳扫地机器人：Shark、Eufy 等
Best Robot Vacuum of 2026: Shark, Eufy

WIRED 🔗 查看原文

📅 2026-06-17 00:27:18

🇺🇸 英文原文

Tired of vacuuming? Hand the reins to a robot vacuum.

🇨🇳 中文翻译

盘点 2026 年市面上的主流扫地机器人产品，包括 Shark 和 Eufy 等品牌，为消费者提供自动化清洁家电的选购指南。

🤖 AI 独到见解

扫地机器人是具身智能目前唯一真正实现大规模商业闭环的品类。对于做算法的工程师来说，关注这些消费级产品的演进方向很重要，毕竟成本极其敏感，视觉 SLAM 和路径规划算法必须做到极致的工程优化。

Qwen-RobotNav 技术报告：专为智能体导航系统设计的可扩展导航模型
Qwen-RobotNav Technical Report: A Scalable Navigation Model Designed for an Agentic Navigation System

arXiv Query: search_query=all:Agent&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-17 00:17:44

🇺🇸 英文原文

Agentic navigation systems require a base navigation model whose observation strategy can be externally reconfigured at inference time, because instruction following, object search, target tracking, a...

🇨🇳 中文翻译

智能体导航系统要求基础模型能够在推理时动态更改观测策略，以应对指令跟随、目标搜索和目标追踪等不同任务。Qwen 团队发布了 Qwen-RobotNav 以解决该问题。

🤖 AI 独到见解

传统的端到端导航模型很难应对动态变化的指令。Qwen-RobotNav 强调的“推理时外部重配观测策略”，实质上是让大模型学会了根据不同任务调用不同的传感器权重，这种高可塑性架构极有可能重塑下一代具身底层控制范式。

我试过几十种割草机器人品牌和型号——这是我对每种庭院的建议
I've had dozens of robot mower brands and models - here's my advice for every yard type

📅 2026-06-16 ▶

WireCraft：针对工业级柔性线缆操作的仿真基准
WireCraft: A Simulation Benchmark for Industrial DLO Manipulation

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 23:59:46

🇺🇸 英文原文

Deformable Linear Objects (DLOs), such as wires and cables, are central to industrial assembly. Unlike rigid objects, whose state is captured by a 6-DoF pose, DLOs have an infinite-dimensional configu...

🇨🇳 中文翻译

针对工业装配中常见的柔性线缆（DLOs）无限维状态难以建模的问题，推出了专门的仿真测试基准。

🤖 AI 独到见解

搞工业自动化的都知道， rigid body（刚体）抓取早卷烂了，但插拔线束、整理电缆一直是个大麻烦。有了专门的Benchmark，学术界的无受力模型方法终于可以和工业界的物理引擎刚一波了。

EAGG：基于几何感知图条件策略的跨本体抓取生成
EAGG: Embodiment-Aligned Grasp Generation via Geometry-Aware Graph Conditioning

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 23:56:44

🇺🇸 英文原文

Cross-end-effector grasp generation seeks a unified model that generalizes across objects and across embodiments ranging from parallel grippers to dexterous end effectors. Existing grasp generators ar...

🇨🇳 中文翻译

旨在解决不同机器人末端执行器（如平行夹爪或灵巧手）之间的抓取泛化问题，通过几何感知实现对齐。

🤖 AI 独到见解

这是迈向'通用物理底座'的必经之路。以后换机械臂或者夹爪不用重新采数据训练了，一套模型适配各种硬件本体，对降本增效的意义极大。

部分观测条件下的混合优化抓取合成框架
A Hybrid Optimization Framework for Grasp Synthesis under Partial Observations

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 23:30:00

🇺🇸 英文原文

We propose a hybrid grasp synthesis framework that combines a learning-based Energy-Based Model (EBM) with an analytical Iterative Closest Point (ICP) method to generate robust grasps from partially o...

🇨🇳 中文翻译

结合基于学习的能量模型（EBM）和分析学方法的迭代最近点（ICP）算法，在遮挡等部分观测条件下生成稳定的抓取姿态。

🤖 AI 独到见解

纯学习的方法在面临严重遮挡时极易输出不合理姿态，把传统几何方法（ICP）缝合进去了，既保留了学习的泛化性，又保证了位姿的物理合理性，真机部署的鲁棒性应该不错。

基于流匹配的视觉-语言-动作模型（VLA）的不确定性量化
Uncertainty Quantification for Flow-Based Vision-Language-Action Models

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 23:19:09

🇺🇸 英文原文

Vision-language-action models (VLAs) combine vision-language backbones with expressive generative action heads trained via flow matching on large-scale robotic datasets. Despite their strong empirical...

🇨🇳 中文翻译

针对目前主流的通过流匹配训练的VLA模型，提出量化其动作输出不确定性的方法，以提升模型部署的安全性。

🤖 AI 独到见解

VLA模型现在火归火，但如果机器人对自己输出的动作没有'自知之明'，在工厂里瞎动是非常危险的。能准确输出不确定性分数，是实现人机安全协作和故障熔断机制的前提。

LAGO策略：感知延迟的异步扩散规划
LAGO Policy: Latency-Aware Asynchronous Diffusion Policies with Goal-Directed Collision-Free Planning for Smooth Manipulation

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 22:33:51

🇺🇸 英文原文

Diffusion-based visuomotor policies deployed with asynchronous inference often exhibit inter-chunk discontinuities and lack explicit mechanisms for obstacle-aware execution, leading to jerky motions a...

🇨🇳 中文翻译

解决基于扩散模型的视觉运动策略在异步推理时产生的动作不连贯和缺乏避障机制的问题，实现平滑操作。

🤖 AI 独到见解

Diffusion Policy生成动作太慢导致的卡顿感极差。这个工作抓住了异步推理带来的时间切片断层问题，通过带目标导向的无碰撞规划来平滑动作，实用性很强。

Mobileye 借助独立服务进军美国无人驾驶出租车市场
Mobileye is entering the US robotaxi market with standalone service

Cars - Ars Technica 🔗 查看原文

📅 2026-06-16 22:20:51

🇺🇸 英文原文

The service will leverage its Moovit platform to launch in an a US city in 2027.

🇨🇳 中文翻译

Mobileye 计划于 2027 年在美国某城市推出其无人驾驶出租车服务，该服务将依托其旗下的 Moovit 出行平台进行运营。

🤖 AI 独到见解

Mobileye 放弃了单纯的 Tier 1 供应商角色，亲自下场搞 To C 运营。连同 Moovit 的调度生态一起打包，说明他们想向资本市场讲一个端到端的无人车故事，这势必会和 Waymo 产生直接的商业争夺。

ThinkingVLA：面向机器人操作的交织视觉与语言推理
ThinkingVLA: Interleaved Vision and Language Reasoning for Robotic Manipulation

arXiv Query: search_query=all:emotion OR all:recognition OR all:robot&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 21:45:17

🇺🇸 英文原文

Most Vision-Language-Action (VLA) models map observations directly to actions without explicit reasoning, limiting their capacity for reasoning-intensive long-horizon tasks. To address this, existing ...

🇨🇳 中文翻译

现有的视觉-语言-动作（VLA）模型大多将观测直接映射为动作，缺乏显式推理。ThinkingVLA 引入视觉与语言交织的推理机制，以解决长视野复杂任务。

🤖 AI 独到见解

现在的端到端 VLA 就像个没脑子的肌肉男，遇到没见过的情况就直接罢工。加入类似链式思考的过程推理，是解决长视野任务中“多步规划+错误纠正”的关键路径，也是让机器人具备真正任务级常识的破局点。

PearlVLA：潜在空间中的渐进式具身动作规划改进
PearlVLA: Progressive Embodied Action-Plan Refinement in Latent Space

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 21:38:03

🇺🇸 英文原文

Current Vision-Language-Action (VLA) models face a trade-off between efficient action generation and explicit deliberation. Directly decoding actions from vision-language backbone representations enab...

🇨🇳 中文翻译

解决了当前VLA模型在快速动作生成和显式逻辑推理之间的权衡问题，通过在潜在空间逐步优化动作计划来提升表现。

🤖 AI 独到见解

直接从VLM解码动作往往缺乏深度的逻辑思考。在Latent Space里做CoT（思维链），既兼顾了VLM的常识推理能力，又没拖慢推理速度，是目前End-to-End VLA一个非常讨巧的演进方向。

WAM-RL：结合重建奖励与在线视频SFT的世界-动作模型强化学习
WAM-RL: World-Action Model Reinforcement Learning with Reconstruction Rewards and Online Video SFT

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 21:29:12

🇺🇸 英文原文

Recent World-Action (WA) models demonstrate strong generalization ability and data efficiency, but they typically rely on expert trajectories for training. This reliance limits their ability to acquir...

🇨🇳 中文翻译

打破了世界-动作模型高度依赖专家轨迹的限制，引入强化学习与重建奖励，使其能从在线视频中学习并探索。

🤖 AI 独到见解

摆脱对昂贵人类遥操数据的依赖是具身智能商业化的关键。能直接用全网海量的无标注视频做SFT加RL，数据获取成本直接断崖式下降，这才是实现Scaling Law的正确姿势。

法国初创企业在拥挤的 AI 机器人赛道押注“非人形”设计
French startup bets on non-humanoid design in crowded AI robot race

[Search] Reuters 🔗 查看原文

📅 2026-06-16 21:01

🇺🇸 英文原文

Genesis AI, the French robotics startup backed by former Google CEO Eric Schmidt, unveiled its first general-purpose robot on Tuesday, as AI capabilities expand beyond chatbots and into physical ‌mac...

🇨🇳 中文翻译

由前谷歌 CEO 埃里克·施密特支持的法国机器人初创公司 Genesis AI 于周二发布了其首款通用机器人。随着 AI 能力从聊天机器人向实体物理机器扩展，该公司选择了一条与人形机器人不同的技术路线。

🤖 AI 独到见解

所有人都在死磕双足人形其实是个巨大的从众陷阱。工厂和真实场景往往需要的是效率、载重和稳定性，而不是长得像人。押注非人形（比如轮式底盘加机械臂）的团队如果能大幅压缩成本并提高容错率，很可能比人形机器人更早实现大规模商业化盈利。

Qwen-RobotManip 技术报告：对齐解锁机器人操作基础模型的规模化潜力
Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models

arXiv Query: search_query=all:emotion OR all:recognition OR all:robot&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 20:14:39

🇺🇸 英文原文

Foundation models in language and multimodality achieve strong generalization by aligning heterogeneous data under a unified formulation and training at scale. In this report, we investigate whether t...

🇨🇳 中文翻译

Qwen 团队探讨如何通过统一框架对齐异构数据并进行大规模训练，以使机器人操作基础模型像语言和多模态模型一样获得强大的泛化能力。

🤖 AI 独到见解

大模型的成功经验证明，把不同来源的异构动作数据投影到同一个语义空间里做对齐，是 scale up 的前提。这给苦于数据分布碎片化的具身智能圈提了个醒：先做数据表征统一，再谈涌现能力。

HumanoidArena：以自我为中心的分层全身学习基准测试
HumanoidArena: Benchmarking Egocentric Hierarchical Whole-body Learning

arXiv Query: search_query=all:emotion OR all:recognition OR all:robot&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 20:01:31

🇺🇸 英文原文

Humanoid robots promise whole-body interaction in human-centered environments, but scalable policy learning remains difficult because task-level decision-making and whole-body dynamic execution are ti...

🇨🇳 中文翻译

人形机器人有望在人类环境中实现全身交互，但任务级决策与全身动态执行的分离导致策略学习困难。HumanoidArena 旨在对这种分层全身学习进行基准测试。

🤖 AI 独到见解

人形机器人控制很容易陷入“顾上不顾下”的尴尬：要么上半身任务做完了下半身摔倒了。把高层语义指令和底层平衡控制拆开做分层强化学习并设立基准，是目前解决轮式/双足通用本体落地最理性的架构设计。

ED3R：由协作机器人智能体实现的节能分布式灾害检测
ED3R: Energy-Aware Distributed Disaster Detection Enabled by Cooperative Robotic Agents

arXiv Query: search_query=all:emotion OR all:recognition OR all:robot&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 17:59:03

🇺🇸 英文原文

Robotics are expected to support environmental monitoring and natural disaster management, where decisions must be made under uncertainty, resource limitations, and strict operational constraints. In ...

🇨🇳 中文翻译

针对环境监测和灾害管理中资源受限和需在不确定性下决策的难题，研究提出 ED3R，利用多机器人协作智能体进行具备能耗感知的分布式灾害检测。

🤖 AI 独到见解

灾害搜救场景下机器人的电量就是生命线。引入能耗感知的分布式协作机制，能在网络通信极差的环境下最大化多智能体系统的存活和工作时间，对做应急机器人的团队来说是非常硬核的落地参考。

ERQA-Plus：具身智能的推理能力诊断基准
ERQA-Plus: A Diagnostic Benchmark for Reasoning in Embodied AI

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 15:56:33

🇺🇸 英文原文

Generalist embodied agents require more than object recognition: they must reason about spatial relations, actions, procedures, human intentions, environmental constraints, and commonsense consequence...

🇨🇳 中文翻译

强调通用具身智能体不能仅靠物体识别，还需要对空间、意图、环境约束和常识后果进行复杂推理，并推出相应评测基准。

🤖 AI 独到见解

别再拿简单的抓取成功率忽悠人了。模型到底懂不懂'把热汤倒进塑料碗里'的后果？这个基准专门打脸那些缺乏基础物理常识的刷榜模型，倒逼社区关注机器人的真实逻辑推理。

FLAP：无先验地图的视场角约束主动感知规划
FLAP: FOV-Constrained Active Perception Planning for Prior-Map-Free 3D Navigation

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 15:40:30

🇺🇸 英文原文

Safe and efficient trajectory planning in unknown, cluttered 3D environments constitutes a critical bottleneck for deploying Unmanned Aerial Vehicles (UAVs) in real-world applications. This challenge ...

🇨🇳 中文翻译

解决无人机在未知、杂乱的3D环境中进行安全高效轨迹规划的瓶颈，提出无需先验地图的视场角受限主动感知方法。

🤖 AI 独到见解

搞无人机穿越或者灾区救援的工程师必看。以前靠SLAM先建图再规划太慢了，现在结合有限的传感器视场角做实时的主动感知，能让无人机在极度未知环境下敢飞、飞得快。

MuseVLA：面向机器人操作的自适应多模态感知VLA模型
MuseVLA: An Adaptive Multimodal Sensing Vision-Language-Action Model for Robotic Manipulation

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 15:04:13

🇺🇸 英文原文

Humans naturally leverage diverse sensing modalities to interact with the physical world, while most Vision-Language-Action (VLA) models for robotics rely solely on RGB observations. This limits their...

🇨🇳 中文翻译

打破当前机器人VLA模型过度依赖RGB视觉的局限，像人类一样引入多种传感模态（如触觉、深度）进行物理交互。

🤖 AI 独到见解

视觉-only在透明杯、反光物面前直接拉胯。把触觉和深度信息原生融入VLA，能大幅提升易形变物体和精细操作的鲁棒性，多模态融合绝对是具身大模型下半场的核心竞争力。

RICH-SLAM：结合增量式与连续希尔伯特映射的雷达SLAM
RICH-SLAM: Radar SLAM with Incremental and Continuous Hilbert Mapping

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-16 13:22:27

🇺🇸 英文原文

Simultaneous localization and mapping using radar sensors has gained increasing attention due to radar's inherent robustness to adverse weather and lighting conditions. However, radar measurements are...

🇨🇳 中文翻译

针对雷达在恶劣天气和光照下鲁棒但存在测量噪声的问题，提出一种新的雷达同步定位与建图（SLAM）方法。

🤖 AI 独到见解

自动驾驶界早就在卷纯视觉和激光雷达的路线了。但在雨雪雾天，毫米波雷达才是真神。这套连续映射方法如果能解决雷达点云稀疏和幽灵噪点的问题，户外重工业场景的落地会非常快。

割草机器人品牌参数大揭秘：哪些虚标，哪些才真正实用
What the robot mower brands aren't telling you about their specs - and which ones are actually useful

📅 2026-06-15 ▶

SGM-SLAM：面向数据高效分布式 SLAM 的场景图匹配
SGM-SLAM: Scene Graph Matching for Data-Efficient Distributed SLAM

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 23:53:59

🇺🇸 英文原文

We introduce a data-efficient distributed Simultaneous Localization and Mapping (SLAM) framework designed for a team of robots equipped with LiDAR, cameras, and inertial sensors. Our framework uses sc...

🇨🇳 中文翻译

提出一种数据高效的分布式同步定位与建图（SLAM）框架，供配备激光雷达、相机和惯性传感器的多机器人团队使用，通过场景图匹配减少通信带宽需求并提升建图效率。

🤖 AI 独到见解

多机器人协同作业（如灾后救援、大型仓储盘点）最大的瓶颈是通信受限。用场景图进行语义级压缩和匹配，而不是硬传点云数据，非常巧妙地解决了带宽问题，工程落地价值很高。

ExoTraj：面向复杂环境的通用下肢外骨骼辅助策略
ExoTraj: A General Lower-limb Exoskeleton Assistance Policy for Complex Environments

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 23:50:29

🇺🇸 英文原文

Adaptive torque prediction in dynamic exoskeleton scenarios requires expensive motion capture systems, which are infeasible in complex outdoor environments. Trajectory prediction has emerged as one of...

🇨🇳 中文翻译

动态外骨骼场景下的自适应力矩预测通常依赖昂贵的动作捕捉系统，这在复杂户外环境中不可行。该研究提出基于轨迹预测的方法，实现适应复杂环境的通用下肢外骨骼辅助策略。

🤖 AI 独到见解

外骨骼要真正走出实验室走向户外，就必须摆脱对光学动捕系统的依赖。纯基于本体感知和轨迹预测的自适应力矩控制，极大降低了硬件门槛，有望加速外骨骼在康复和工业搬用领域的普及。

用于食物断裂模拟中逆向材料估计的潜空间强化学习
Latent Space Reinforcement Learning for Inverse Material Estimation in Food Fracture Simulation

arXiv Query: search_query=all:facial OR all:expression OR all:recognition&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 23:47:37

🇺🇸 英文原文

Realistic visual simulation of food manipulation requires accurate material parameters, yet these are difficult to measure directly and vary across the heterogeneous regions of a single food item. We ...

🇨🇳 中文翻译

食物拟真视觉模拟需要准确的材料参数，但这些参数难以直接测量。研究提出在潜空间中使用强化学习方法来估计食物的异构材料参数。

🤖 AI 独到见解

对于做具身智能仿真的开发者来说，这意味着在 Isaac Sim 等引擎里做食物抓取或切割任务时，不用再费力手动调参了。利用潜空间表征直接逆向推算材料参数，能大幅提升物理仿真的逼真度。

ATOM-Bench：评估操作策略原子技能与组合泛化能力的真实世界基准
ATOM-Bench: A Real-World Benchmark for Atomic Skills and Compositional Generalization in Manipulation Policies

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 23:08:42

🇺🇸 英文原文

Generalist manipulation policies are increasingly presented as foundation models for robotic control, but their real-world generalization remains difficult to diagnose. A policy may succeed on demonst...

🇨🇳 中文翻译

通用操作策略常被视为机器人控制的基础模型，但其真实世界泛化能力难以评估。ATOM-Bench 提供了一个真实世界基准，诊断策略在原子技能及长程组合任务上的泛化表现。

🤖 AI 独到见解

当前机器人策略模型在实验室表现很好，一到真实环境就拉胯。这个Benchmark重点考验模型对未见过的长程组合任务的泛化能力，建议做具身大模型的团队拿它做做压力测试，看看模型是不是真懂了物理规律。

SoK：基于基础模型的机器人的安全与隐私评估
SoK: Security and Privacy of Foundation-Model-Powered Robots

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 22:32:08

🇺🇸 英文原文

Foundation models are reshaping robotics by enabling robots to interpret open-ended instructions, reason over multimodal contexts, and operate in complex, open-world environments. However, their integ...

🇨🇳 中文翻译

基础模型让机器人能理解开放式指令并在复杂环境中运行，但整合这些模型也带来了严重的安全与隐私漏洞。本文系统梳理了相关攻击面及防御机制。

🤖 AI 独到见解

大模型接入机器人后，传统的提示词注入攻击直接变成了物理世界的安全威胁。比如诱导机器人故意摔坏物品或泄露家庭监控画面。安全团队现在就得把大模型围栏和底层控制系统的权限隔离提上日程。

DIFF-IPPO：基于扩散模型与开放词表置信度地图的信息路径规划
DIFF-IPPO: Diffusion-Based Informative Path Planning with Open-Vocabulary Belief Maps

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 22:26:02

🇺🇸 英文原文

Exploration and object search require robots to perceive their environment, identify regions of interest, and plan trajectories that improve target-detection likelihood or maximize information gain. M...

🇨🇳 中文翻译

机器人在执行探索和目标搜索时，需要识别感兴趣区域并规划能最大化信息增益的轨迹。DIFF-IPPO 结合扩散模型与开放词表地图，有效提升了复杂环境下的路径规划质量。

🤖 AI 独到见解

将扩散模型用在路径规划上是个很有意思的尝试。相比传统算法，扩散模型在处理多模态分布的复杂环境（比如拥挤的人群）时更有优势，未来在无人机搜救或复杂仓储物流中潜力很大。

DataLadder：面向具身数据金字塔的仿真-现实互转工具链
DataLadder: A Simulation-Enabled Interconversion Toolchain for the Embodied Data Pyramid

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 22:21:35

🇺🇸 英文原文

Generalist robot policies require trustworthy evaluation and robot-usable training data, but both are difficult to scale with physical robots alone. Real-robot trials and demonstrations remain the mos...

🇨🇳 中文翻译

通用机器人策略需要大量高质量的训练数据和可靠的评估，但纯靠真实机器人成本极高。DataLadder 提出了一套连接仿真与真实数据的互转工具链，以高效扩充具身智能训练数据。

🤖 AI 独到见解

纯靠人形机器人遥操作收集数据太慢且昂贵。利用仿真到现实（Sim2Real）的工具链进行数据扩繁和对齐，是目前各家具身大厂都在暗中发力的方向，谁能解决好仿真偏差，谁就能率先跑出泛化模型。

VENOM：用于全身运动追踪的通用具身网络
VENOM: Versatile Embodied Network for Omni-bodied Motion tracking

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 21:31:37

🇺🇸 英文原文

Achieving expert-level expressive full-body motion tracking across multiple humanoids solely from demonstration data remains a challenging and relatively an underexplored problem in humanoid robot lea...

🇨🇳 中文翻译

仅从示范数据中学习专家级的全身表达性运动追踪，在仿人机器人领域仍具挑战。VENOM 网络提出一种通用方法，解决多仿人机器人的全身精细运动追踪问题。

🤖 AI 独到见解

现在人形机器人的研究正在从“走得稳”向“动得像人”进化。精细的全身动作追踪不仅能改善机器人的平衡性，更是未来切入演艺、主题乐园等娱乐商用场景的核心技术壁垒。

PATCH：基于动作块条件的潜在补丁创新监控用于机器人操作
PATCH: Action-Chunk-Conditioned Latent Patch Innovation Monitoring for Robot Manipulation

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 21:24:41

🇺🇸 英文原文

Learning-based manipulation policies have made substantial progress in real-world robot manipulation, particularly for short-horizon action generation. However, deployment in open workspaces remains f...

🇨🇳 中文翻译

基于学习的操作策略在真实世界短视界任务中取得进展，但在开放工作空间中常因环境变化导致不可预测的失败。PATCH 提出一种潜在补丁监控方法，实时检测并防止策略执行偏离预期。

🤖 AI 独到见解

机器人部署到工厂产线最怕的就是“突然抽风”抓空，导致整个流水线卡壳。这种基于动作块的创新监控机制，相当于给操作模型加了一道安全险，一旦发现异常立刻介入，对提升工业容错率很实用。

不确定性下基于内循环动力学估计器的飞行抓取强化学习
Reinforcement Learning with Inner-loop Dynamics Estimator for Aerial Manipulation under Uncertainty

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 20:16:01

🇺🇸 英文原文

Aerial manipulators enable physical interaction in hard-to-reach environments; however, the combined problem of direct whole-body aerial manipulation under rapid arm motion, payload changes, and relat...

🇨🇳 中文翻译

空中操作机器人能够在难以到达的环境中进行物理交互，但在机械臂快速运动和载荷变化下，全身控制面临巨大挑战。该研究将强化学习与内循环动力学估计器结合，提升了复杂扰动下的飞行抓取稳定性。

🤖 AI 独到见解

无人机带机械臂抓东西，最大的难点是重心的动态突变。传统PID控制根本扛不住这种突变，把动力学估计嵌套到强化学习的内循环里，能实时补偿这种不确定性，对风力发电机检修等特种作业是个好消息。

ARB4WM：连续控制中世界模型的对抗鲁棒性基准
ARB4WM: An Adversarial Robustness Benchmark for World Models in Continuous Control

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 19:51:19

🇺🇸 英文原文

World models are widely used in robotic and agentic engineering control systems due to their ability to learn latent dynamics for planning and decision-making. As these systems are increasingly deploy...

🇨🇳 中文翻译

世界模型因能学习潜在动力学用于规划，被广泛应用于机器人和智能体控制。随着部署规模扩大，ARB4WM 基准专门评估这些世界模型在面对对抗性干扰时的鲁棒性表现。

🤖 AI 独到见解

世界模型现在火得一塌糊涂，但大家都忙着刷指标，很少人关注它面对恶意干扰时的脆弱性。如果机器人的世界模型被对抗样本骗了，预判的物理轨迹就会完全错误，这是自动驾驶系统必须排查的雷。

WaveSync：用于仿人机器人同步语音伴随手势的约束波前优化
WaveSync: Constrained Wavefront Optimization for Synchronized Co-Speech Gestures in Humanoid Robots

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 19:47:30

🇺🇸 英文原文

Expressive co-speech gestures are crucial for natural human-robot interaction, but generating them on physical humanoid robots is difficult because gesture strokes must align with speech emphasis whil...

🇨🇳 中文翻译

富有表现力的语音伴随手势对自然人机交互至关重要，但在实体仿人机器人上生成这些手势极其困难，因为动作节拍必须与语音重音精准对齐，同时还要满足物理约束。WaveSync 提出了一种约束波前优化方法解决此问题。

🤖 AI 独到见解

现在的陪护机器人和迎宾机器人手势都很生硬，原因就是动作和声音脱节。WaveSync 解决了语音和手势微秒级对齐的难题，而且考虑了机器人的物理关节极限，做服务机器人的产品经理可以关注下这个算法。

将生成式强化学习引导至稳定的机器人控制器
Steering Generative Reinforcement Learning into Stable Robotic Controller

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 19:16:37

🇺🇸 英文原文

Diffusion and flow-based generative policies provide a powerful policy class for reinforcement learning by inducing rich stochastic exploration through iterative action generation. However, the stocha...

🇨🇳 中文翻译

扩散和基于流的生成策略通过迭代动作生成引入丰富的随机探索，增强了强化学习的探索能力。但这种随机性会导致控制不稳定。本研究提出一种方法，将生成式策略引导为稳定的机器控制策略。

🤖 AI 独到见解

扩散模型在提升策略多样性上很强，但收敛性差，容易导致机器人末端抖动。把生成的多模态动作蒸馏成稳定的确定性控制，兼顾了探索效率和部署安全性，做机械臂抓取研发的同学可以借鉴这套范式。

PROSE：基于视觉语言模型的无训练第一视角场景配准
PROSE: Training-Free Egocentric Scene Registration with Vision-Language Models

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 19:11:14

🇺🇸 英文原文

Registering two captures of the same indoor space taken at different times underpins persistent spatial memory for robots and AR systems, yet the realistic version of this task is egocentric and its m...

🇨🇳 中文翻译

对同一室内空间在不同时间点的两次捕捉进行配准，是机器人持久空间记忆的基础。PROSE 利用视觉语言模型（VLM），无需额外微调即可解决具有挑战性的第一视角场景配准任务。

🤖 AI 独到见解

直接拿预训练好的VLM做零样本的场景配准，省去了海量数据的微调成本。这意味着扫地机或陪伴机器人换了个视角或隔了几个月再回到同一个房间，依然能认出这是哪里，对实现长期自主运行非常有价值。

Elastic ODYN：面向机器人不可行控制与学习的可微优化
Elastic ODYN: Differentiable Optimization for Infeasible Control and Learning in Robotics

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 19:06:22

🇺🇸 英文原文

Robotic systems routinely encounter conflicting objectives, modeling errors, and degenerate contact conditions that render quadratic programs (QPs) infeasible. Yet most optimization solvers and differ...

🇨🇳 中文翻译

机器人系统经常遇到目标冲突、建模误差和退化接触条件，导致二次规划（QP）求解器报错不可行。Elastic ODYN 通过可微优化方法，优雅处理这些不可行约束，保证控制系统持续运行。

🤖 AI 独到见解

做足式机器人底层的控制算法工程师经常遇到QP求解器因为物理极限卡死的情况。这提出的方法就像是给控制器加了缓冲层，遇到死胡同也能算出一个近似解，对于避免机器人在复杂地形中突然宕机死机很实用。

ADAPT：用于仿人机器人行走的分析性扰动感知策略训练
ADAPT: Analytical Disturbance-Aware Policy Training for Humanoid Locomotion

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 18:47:18

🇺🇸 英文原文

Humanoids deployed in human-centered environments must handle force-interactive tasks, where external contacts introduce unexpected disturbances that disrupt locomotion accuracy and stability. Existin...

🇨🇳 中文翻译

部署在以人为中心环境中的人形机器人必须处理受力交互任务。外部接触引入的意外扰动会破坏行走稳定性。ADAPT 提出一种分析性扰动感知策略训练方法，提升人形机器人在外力扰动下的步态稳定性。

🤖 AI 独到见解

人形机器人要进厂搬砖或者进家服务，被撞或者推拉是家常便饭。能在强化学习训练阶段引入解析的扰动模型，让网络学会抵抗突发外力，这比单纯依靠阻抗控制要聪明得多，有望大幅降低人形机器人的摔倒概率。

Kairos：面向物理 AI 的原生世界模型技术栈
Kairos: A Native World Model Stack for Physical AI

arXiv Query: search_query=all:robotics&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 18:37:42

🇺🇸 英文原文

World models are transitioning from passive visual generators to foundational, operational infrastructure for Physical AI: they must natively acquire world knowledge from heterogeneous experience, mai...

🇨🇳 中文翻译

世界模型正从被动的视觉生成器，转变为物理 AI 的基础运行架构。Kairos 提出一个原生技术栈，能够从异构经验中自主获取世界知识，并维持长期的多维一致性，用于物理系统的规划和决策。

🤖 AI 独到见解

大家别再把世界模型当成纯生视频的玩具了。Kairos 这种把世界模型作为物理设备操作系统底座的思路，代表了具身智能的下一个拐点。它意味着机器人的决策不再依赖预设规则，而是基于物理常识的自主推演。

超越可用性：使用“撤回设计”挑战社交机器人参与度指标的 UX 案例研究
Beyond Usability: A UX Case Study on Using "Withdrawal Design" to Challenge Engagement Metrics in Social Robotics

arXiv Query: search_query=all:cs.HC&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 17:10:40

🇺🇸 英文原文

Social robots for children with autism are often evaluated through engagement and interaction quality, assuming the robot acts as a social scaffold. We report a mixed-methods "withdrawal" study that t...

🇨🇳 中文翻译

针对自闭症儿童的社交机器人通常通过互动参与度来评估。本研究报告了一项混合方法的“撤回”研究，通过挑战传统的参与度指标，重新审视社交机器人在特定群体中的真实交互体验设计。

🤖 AI 独到见解

做C端 AI 产品的同学可以学学这个思路。与其堆砌功能卷用户的停留时间，不如试试“撤回设计”，看看用户在失去某项 AI 功能后的真实反应。这招能帮你挤掉伪需求的水分，找到真正的产品核心价值。

LectūraAgents：用于自适应个性化 AI 辅助学习与具身教学的多智能体框架
LectūraAgents: A Multi-Agent Framework for Adaptive Personalized AI-Assisted Learning and Embodied Teaching

arXiv Query: search_query=all:cs.HC&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 17:03:12

🇺🇸 英文原文

Effective personalized AI-assisted learning demands systems that can not only generate accurate learner-specific educational materials, but also dynamically adapt their instruction to diverse learners...

🇨🇳 中文翻译

有效的个性化 AI 辅助学习不仅需要生成准确的特定教材，还需根据学习者的状态动态调整教学指令。LectūraAgents 结合大模型与多智能体协同，实现教育内容生成与具身教学的动态自适应。

🤖 AI 独到见解

教育大模型不能只停留在屏幕里当个答疑机器。结合具身智能的多智能体框架，意味着未来的辅导机器人能通过观察学生的微表情和做题状态实时调整教学策略，这对于主打高端家教的机器人产品是个降维打击。

用于通用机械臂操作的增强现实脑机接口
An Augmented Reality Brain-Robot Interface for Generalist Robot Arm Manipulation

arXiv Query: search_query=all:cs.HC&id_list=&start=0&max_results=30 🔗 查看原文

📅 2026-06-15 16:50:43

🇺🇸 英文原文

The integration of augmented reality (AR) and EEG-based brain-computer interfaces (BCIs) offers a promising path for enabling intuitive control of robots for assistive purposes. However, existing AR b...

🇨🇳 中文翻译

增强现实（AR）与基于脑电图（EEG）的脑机接口（BCI）结合，为残障人士提供直观的机器人控制途径。该研究解决现有 AR-BCI 在通用机械臂复杂抓取任务中的局限性，提升了控制的自然度。

🤖 AI 独到见解

渐冻症患者或高位截瘫患者控制的机械臂，最怕的就是操作门槛高。把 AR 的视觉焦点引导和脑电波意图识别结合，极大降低了用户的学习成本，这种多模态交互是医疗康养机器人走向普及的必经之路。