查一查

人工智能行业：Open AI加持，机器人Figure 01炸裂登场.pdf

2024-03-20 12:36

中信建投

本报告由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。证券研究报告·行业动态OpenAI加持，机器人Figure01炸裂登场核心观点在宣布获得6.75亿美元融资近半个月后，3月13日，Figure发布了和OpenAI合作后的首个机器人Figure01的演示，OpenAI提供视觉推理和语言理解，Figure01完成快速、低等级、灵巧的机器人动作。由于OpenAI模型支持多模态输入，Figure01可以处理视觉和语言信息，提供高级视觉和语言智能。这使得机器人能够更全面地理解环境，并根据视觉和语言信息作出相应的反应。Figure01将以仓库搬运作为首要应用场景，目标是成为一种通用型人形机器人，能够自主执行“日常任务”，最终目标是为人类“在全球范围内部署自动人形工作者”，旨在解决劳动力短缺问题。产业要闻【Figure01机器人接入OpenAI大模型】【让AI模型互相教学，谷歌推出社会学习框架】【微软Copilot全面升级OpenAIGPT-4Turbo模型，包括免费用户】持续关注：GPU：英伟达、超威半导体、海光信息等；FPGA：安路科技-U等；SoC：高通、全志科技等；自然语言处理：科大讯飞等；计算机视觉：商汤-W、格灵深瞳-U等；自动驾驶：德赛西威、中科创达、均胜电子、光庭信息；智慧交通：千方科技、万集科技；AI+工业：中控技术、华大九天、广立微、概伦电子等。风险提示：北美经济衰退预期逐步增强，宏观环境存在较大的不确定性，国际环境变化影响供应链及海外拓展；芯片紧缺可能影响相关公司的正常生产和交付，公司出货不及预期。人工智能维持强于大市于芳博yufangbo@csc.com.cn010-86451607SAC编号:S1440522030001发布日期：2024年03月20日市场表现相关研究报告-8%2%12%22%32%42%2022/12/122023/1/122023/2/122023/3/122023/4/122023/5/122023/6/122023/7/122023/8/122023/9/122023/10/122023/11/12计算机上证指数人工智能行业动态报告请务必阅读正文之后的免责条款和声明。目录一、行业变化..1二、持续关注标的3三、行情回顾..3四、产业要闻..6芯片....6大模型7智能驾驶..9其他..10五、重要公告10六、风险提示11图表目录图表1：机器人Figure01.1图表2：Figure01可以在执行任务时实现与人类的互动...1图表3：Figure01工作原理...2图表4：Figure01各项参数...2图表5：Figure的总体规划....3图表6：FigureAI融资情况...3图表7：中证人工智能指数、上证指数、沪深300指数涨跌幅比较.4图表8：人工智能（中证）个股周涨幅前十名（%）..4图表9：人工智能（中证）个股周涨幅后十名（%）..4图表10：重点公司股票涨跌详情（数据采用wind一致预期）...4图表11：人工智能行业一周重要公告.101人工智能行业动态报告请务必阅读正文之后的免责条款和声明。一、行业变化当地时间3月13日，在宣布与AI（人工智能）新锐巨头OpenAI展开合作的13天后，AI机器人初创企业Figure发布了旗下全尺寸人形机器人Figure01的最新演示视频，该机器人装有OpenAI提供的视觉语言模型（VLM）。视频显示，Figure01可以在执行任务时实现与人类的互动。虽然只用到了一个神经网络，但却可以为听从人类的命令，递给人类苹果、将黑色塑料袋收拾进框子里、将杯子和盘子归置放在沥水架上。视频显示，机器人整套操作的动作十分流畅。根据Figure的介绍，这段时长2分33秒的展示视频“连贯地录制”于3月9日，以原速播放，显示出Figure01已经能够实现“语音到语音的推理”和“端到端的神经网络”。在视频中，外表颇具科技感的Figure01站在一张放有盘子、苹果和水杯的桌子后面，旁边还放着一个装了盘子和水杯的碗架。一个主持人站在Figure01的面前，问它能够看见什么。在停顿几秒钟后，Figure01用一个很像真人的声音，详细描述了桌子上的东西和站在桌前的主持人。而当主持人询问Figure01“我可以吃点什么吗”，机器人以非常流畅的动作拿起了桌上的苹果，将其递给主持人，并在清理主持人用一个篮子倒在桌上的垃圾的同时，向主持人解释自己的“思考”过程：“我给你苹果，因为它是这张桌子上唯一可以吃的东西。”随后，机器人又在主持人十分模糊的提示下，准确地将桌上的盘子和水杯放进了一旁的碗架。在视频的最后，Figure用“完全掌握技能、快速、灵巧操作”来形容Figure01。在X（原推特）平台上，Figure在转发该视频时写道：“有了OpenAI，Figure01现在可以与人进行完整的对话。OpenAI的模型提供了高水平的视觉和语言智能。Figure神经网络提供快速、低级、灵巧的机器人动作。”对于本视频，Figure的CEO布雷特·阿德科克（BrettAdcock）在X平台上进行了更多解释：“Figure的机载摄像头被输入了由OpenAI训练的视觉语言模型（VLM），Figure的神经网络也通过机器人的摄像头以10赫兹的频率接收图像。然后，神经网络以200赫兹的速度输出具有24个自由度的动作……除了构建领先的AI，Figure还垂直整合了基本所有的方面。”不过，Figure尚未明确表示Figure01使用的VLM是否为GPT-4的相关版本，还是一个截然不同的模型。阿德科克也没有提到任何关于Figure01推出时间的信息。Figure公布这段视频后，直接震撼了科技圈。一方面是因为Figure01的强悍，即便是机器人领域一直备受关注的特斯拉的擎天柱，最新的进展也只是在工厂里漫步，或者是抓起一个鸡蛋，还没有展现出什么和人类交互、和环境交互的特别能力，但内置了ChatGPT的Figure01却已经会说会看，还能给人递食物、捡垃圾、收拾图表1：机器人Figure01图表2：Figure01可以在执行任务时实现与人类的互动资料来源：Figure视频截图，中信建投资料来源：智谱AI，中信建投2人工智能行业动态报告请务必阅读正文之后的免责条款和声明。碗筷，甚至还能够推理，自行识别、计划和执行有用的任务。另一方面则在于，机器人领域的参与者一直非常多，除了特斯拉以外，还有波士顿动力、优必选、小米等，即便很多科技大厂都在机器人赛道耕耘了好几年，但机器人行业的发展却一直都比较缓慢，波士顿动力公司甚至还被几度出售和转卖，而Figure才只是一家成立于2022年的初创公司，截至目前只有80名员工，却已经史无前例地让机器人在没有操控的情况下，和人如此自然地互动，并且能够服从人类。如此流畅的演示，此前的公司都没有做到。Figure01的核心技术在于OpenAI支持下的多模态大模型技术的成功应用。这种技术能够使机器人详细描述周围环境、运用常识推理，并将表意不清的高级指令转化为符合情境的行为。这些能力的集成，展示了

点击免费阅读完整报告