大模型进程焦点:OpenAI春季发布会及谷歌开发者大会要点归纳.pdf

2024-05-16 16:36
信达证券
冯翠婷
大模型进程焦点:OpenAI春季发布会及谷歌开发者大会要点归纳.pdf

请阅读最后一页免责声明及信息披露http://www.cindasc.com1证券研究报告行业研究[Table_ReportType]行业事项点评[Table_StockAndRank]投资评级上次评级[Table_Author]冯翠婷传媒互联网及海外首席分析师执业编号:S1500522010001联系电话:17317141123邮箱:fengcuiting@cindasc.com[Table_OtherReport]信达证券股份有限公司CINDASECURITIESCO.,LTD北京市西城区闹市口大街9号院1号楼邮编:100031[Table_Title]大模型进程焦点:OpenAI春季发布会及谷歌开发者大会要点归纳[Table_ReportDate]2024年5月16日[Table_Summary]事件:北京时间5月14日凌晨,OpenAI发布了最新模型GPT-4o,GPT-4o(“o”代表“omni”)接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,与人类的响应时间相似。它在英语文本和代码上的性能与GPT-4Turbo的性能相匹配,在非英语文本上的性能显著提高。与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。GPT-4o的文本和图像功能5月14日已经开始在ChatGPT中推出。OpenAI正在免费套餐中提供GPT-4o,并向Plus用户提供高达5倍的消息限制,未来几周将在ChatGPTPlus中推出新版语音模式GPT-4o的alpha版。开发人员现在还可以在API中访问GPT-4o作为文本和视觉模型。与GPT-4Turbo相比,GPT-4o速度提高2倍,价格降低一半,速率限制提高5倍。OpenAI计划在未来几周内在API中向一小部分值得信赖的合作伙伴推出对GPT-4o新音频和视频功能的支持。在OpenAI发布会上,团队展示了GPT-4o的多个功能。包括实时语音交流能力,几乎无延迟,达到真人聊天的水平;可以识别用户的语音情绪,语音有情感;可以使用不同语言(英语、意大利语)和多人同时交互;在语音的同时可以与视频实时交互;实时交流,协助阅读代码,指导编程;实时视频聊天,并识别情绪等。北京时间5月15日凌晨,GoogleI/O开发者大会正式开幕。公司更新了Gemini1.5Pro,引入了1.5Flash较小型号的Gemini版本,同时也增加了两个新的Gemma模型。Gemini1.5Pro:普通版本配备了100万token上下文窗口,而Gemini1.5Pro将在GoogleAIStudio或适用于GoogleCloud客户的VertexAI中的候补名单中拥有200万个代币上下文窗口。在智能代理领域,谷歌展示了其最新的人工智能代理GoogleAstra项目,可与用户实现多模态交互。多模态领域,谷歌推出全新视频生成模型Veo,可生成各种电影和视觉风格的高质量1080p分辨率视频,时间可以超过一分钟;升级了文生图新模型Imagen3,对图像细节的把控度更高;发布了人工智能音乐生成模型Lyria。以及在AI搜索功能、照片问询功能均实现了一定程度的升级迭代。请阅读最后一页免责声明及信息披露http://www.cindasc.com2点评:➢OpenAI打造全新多模态融合、高拟人情感、实时低延迟交互的“个人超级AI语音助手”,推出GPT-4o全新旗舰人工智能模型。根据传统基准测试,GPT-4o在文本、推理和编码智能方面实现了GPT-4Turbo级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。GPT-4o能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出,输入输出均由同一神经网络处理。同时,在用户情绪感知和语义理解上,GPT-4o也展现得较为出色,用户可以在对话中随时打断,并且可以根据用户需要改变语音语调来满足用户的情绪变化,有望逐渐成为个人用户在终端设备上的具备强拟人化、可交互性高、高智商、高情商的私人助理管家。图1:GPT-4o文本+图像输入资料来源:OpenAI官网,信达证券研发中心图2:GPT-4o文本+音频输入资料来源:OpenAI官网,信达证券研发中心请阅读最后一页免责声明及信息披露http://www.cindasc.com3图3:两个GPT-4o产品在自动对话并且唱歌资料来源:OpenAI官网,信达证券研发中心图4:GPT-4o文本评价资料来源:OpenAI官网,信达证券研发中心➢免费提供给所有用户使用,付费用户享受5倍调用额度,大模型本身的技术迭代带来的成本降低有望使个人或企业用户深度受益。每周都有超过一亿人使用ChatGPT。OpenAI将在未来几周内开始向ChatGPT免费用户推出更多智能和高级工具。使用GPT-4o时,ChatGPT免费用户现在可以访问以下功能:体验GPT-4大模型的回答;获取来自模型和互联网的回复;分析数据并创建图表;聊聊用户拍摄的图片;上传请阅读最后一页免责声明及信息披露http://www.cindasc.com4文件并提供帮助、总结、写作或分析;发现并使用GPT和GPT商店;使用Memory打造更有帮助的体验。图5:上传数据文件,GPT-4o进行数据分析资料来源:OpenAI官网,信达证券研发中心图6:GPTs和GPTs有关应用推荐资料来源:OpenAI官网,信达证券研发中心➢OpenAI推出新的桌面应用程序,简化用户的工作流程。对于免费和付费用户,OpenAI推出了适用于macOS的新ChatGPT桌面应用程序,该应用程序旨在无缝集成到用户在计算机上执行的任何操作。通过简单的键盘快捷键(Option+Space),用户既可向ChatGPT提问,还可以直接在应用程序中截取屏幕截图并进行讨论。同时,用户可以直接从计算机与ChatGPT进行语音对话,目前暂时提供ChatGPT发布时提供的语音模式,新的音频和视频功能将在未来推出。同时,从发布会当日开始,OpenAI将向Plus用户推出适配于macOS的应用程序,并将在未来几周内更广泛地提供该应用程序,Windows版本计划在今年晚些时候推出。应用程序简化了ChatGPT的界面外观,整体UI设计更加友好具备交互性。请阅读最后一页免责声明及信息披露http://www.cindasc.com5图7:适用于macOS的新ChatGPT桌面应用程序资料来源:OpenAI官网,信达证券研发中心图8:应用程序简化了ChatGPT的界面外观,整体UI设计更加友好具备交互性资料来源:OpenAI官网,信达证券研发中心北京时间5月15日凌晨,GoogleI/O开发者大会正式开幕,在生成式人工智能AI竞争中,从谷歌在本次开发者大会上发布的内容可以看出其在AI领域的积淀和步伐愈发稳健深厚。2023年12月,谷歌发布了Gemini1.0;2024年2月,谷歌发布了Gemini1.5Pro,是第一个具有100万tokens的模型,同时也推出了轻量级的开源模型Gemma。在本次谷歌开发者大会上,公司更新了Gemini1.5Pro,引入了1.5Flash较小型号的Gemini版本,同时也增加了

点击免费阅读完整报告
© 2017-2023 上海俟德教育科技有限公司
沪ICP备17027418号-1 | 增值电信业务经营许可证:沪B2-20210551
回顶部
报告群
公众号
小程序
APP
在线客服
收起