Google的机器人团队在机器学习,工程和物理模拟中应用专业知识,以应对AI驱动机器人开发面临的挑战。 | Source: DeepMind
Google DeepMind today introduced two new artificial intelligence models: Gemini Robotics, its Gemini 2.0-based model designed for robotics, and Gemini Robotics-ER, a Gemini model with advanced spatial understanding.
DeepMind said it has been making progress in how Gemini solves complex problems through multimodal reasoning across text, images, audio, and video.现在,借助这些新模型,它将这些功能从数字化和现实世界中带入了现实世界。它添加了物理动作作为新的输出方式,目的是直接控制机器人。
DeepMind表示,这两种模型都使各种机器人能够比以往任何时候都更广泛。作为其努力的一部分,DeepMind正在与Apptronik合作,与Gemini 2.0一起建造类人动物机器人。
Google单元还与受信任的测试人员合作,指导Gemini Robotics-er的未来。它们包括敏捷机器人,敏捷机器人,波士顿动态和附魔工具。
立即注册,这样您就不会错过!
如何使AI在现实世界中有用
根据对人的有用和有用的含义: Gemini Robotics uses Gemini’s world understanding to generalize to novel situations and solve a wide variety of tasks out of the box, including tasks it has never seen在培训之前。双子座机器人技术还擅长处理新的对象,多样化的说明和新环境。要在我们的动态,物理世界中运作,机器人必须能够与人及其周围环境无缝互动,并适应即时的变化。 DeepMind说,双子座2.0的基础是,双子座机器人技术在直觉上是互动的。 DeepMind表示,它比日常对话和不同语言中的命令可以理解并响应命令。 该模型可以理解并响应比以前的模型更广泛的自然语言指令,将其行为调整为用户的行为。它还不断监视其周围环境,检测到其环境或说明的变化,并相应地调整其行动。该公司表示,这种控制权或“可施加能力”可以更好地帮助人们与机器人助手合作,从家到工作场所,从家到工作场所。机器人。 相比之下,双子座机器人技术可以解决需要精确操作的极其复杂的多步骤任务,例如折纸折叠或将小吃包装到Ziploc袋中。该公司主要根据BI-ARM机器人平台Aloha 2的数据培训了该模型,但它还证明,该模型可以控制一个基于许多学术实验室中使用的Franka Arms的两臂平台。 deepMind指出,Gemini Robotics指出,Gemini Robotics也可以专门用于更复杂的实施方案,例如由Appollo Robot进行的,例如人类Apollo apollo apollo apollo apollo apolloy apollo apollo apollonik wortron,任务。 Gemini Robotics-ers以机器人技术所需的方式增强了Gemini对世界的理解,尤其专注于空间推理。它还允许机器人主义者将其与现有的低级控制器联系起来。 deEpmind表示,该模型可显着提高Gemini 2.0的现有能力,例如指向和3D检测。 结合了空间推理和双子座的编码能力,Gemini Robotics-ER可以实例化完全新的功能。例如,当向咖啡杯显示时,该模型可以直觉在手柄上拾取它的合适的两指掌握,并可以安全地进行接近。在这样的端到端环境中,该模型比Gemini 2.0成功的两到三倍。 如果代码生成不够,则Gemini Robotics-er可以利用遵循一些人类示范的模式,以提供一种解决方案,以提供解决方案。Eepmind说,当它探索AI和机器人技术的潜力时,它采取了一种分层的,整体的方法来解决安全性,从低级运动控制到高级语义的理解。 gemini robotics-er可以与“低级”的安全控制器接触,以避免了避免碰撞的碰撞,以及范围内的移动效果,以避免了“低水平”的安全临界器,并具有限制性的动力。 robots. Building on Gemini’s core safety features, the organization enables Gemini Robotics-ER models to understand whether or not a potential action is safe to perform in a given context, and to generate appropriate responses. To advance robotics safety research across academia and industry, DeepMind also released a new dataset to evaluate and improve semantic safety in体现了AI和机器人技术。在以前的工作中,它展示了如何受到以撒·阿西莫夫(Isaac Asimov)的三个机器人定律的启发的“机器人宪法”TICS可以帮助提示大型语言模型(LLM)为机器人选择更安全的任务。 该组织已开发出一个框架来自动生成数据驱动的宪法 - 直接以自然语言表示的规则 - 引导机器人的行为。该框架将使人们能够创建,修改和应用宪法来开发更安全,更与人类价值观更加一致的机器人。 最后,新的Asimov数据集将帮助研究人员严格衡量在真实世界中机器人行动的安全性,DeepMind。