谷歌通过Gemini AI训练机器人,提升其导航和任务完成能力。DeepMind的研究团队利用Gemini 1.5 Pro的长上下文窗口技术,实现了与RT-2机器人更自然的自然语言交互。机器人通过观看视频学习环境布局,并能根据观察执行命令,如引导用户找到充电插座。在9000多平方英尺的区域内,Gemini驱动的机器人对50多条用户指令的成功率达到90%。研究还显示,Gemini 1.5 Pro能帮助机器人规划执行非导航指令,如寻找指定饮料。尽管存在处理指令时间延迟的问题,DeepMind仍计划深入研究这些成果。