计算机行业动态研究:GPT-4o、Gemini新品接连发布,多模态技术奇点加速到来.pdf

2024-05-16 22:35
国海证券
刘熹
计算机行业动态研究:GPT-4o、Gemini新品接连发布,多模态技术奇点加速到来.pdf

国海证券研究所请务必阅读正文后免责条款部分2024年05月16日行业研究评级:推荐(维持)研究所:证券分析师:刘熹S0350523040001liux10@ghzq.com.cn[Table_Title]GPT-4o、Gemini新品接连发布,多模态技术奇点加速到来——计算机行业动态研究最近一年走势行业相对表现2024/05/16表现1M3M12M计算机5.1%6.2%-25.0%沪深3003.7%8.2%-8.5%相关报告《计算机事件点评:运营商AI服务器订单超预期,国产化不断提速(推荐)*计算机*刘熹》——2024-04-22《计算机行业动态研究:阶跃星辰发布Step-2万亿参数模型,AI应用+算力景气上行(推荐)*计算机*刘熹》——2024-03-26《AI算力月度跟踪(202403):NVIDIAB200再创算力奇迹,液冷、光模块持续革新(推荐)*计算机*刘熹》——2024-03-24《计算机行业事件点评:NVIDIAH20或将与国产算力同步高增(推荐)*计算机*刘熹》——2024-03-03《计算机行业月报:英伟达业绩再超预期,国产算力需求再扩大(推荐)*计算机*刘熹》——2024-02-28事件:2024年5月14日,OpenAI在官网正式发布新旗舰模型GPT-4o多模态大模型,其中o代表的是omni,即“全能”,GPT-4o可以实时对音频、视觉和文本进行推理,相较于GPT-4Trubo速度更快、价格更便宜。2024年5月15日,2024年谷歌I/O大会正式召开,会上谷歌将搜索业务做了最彻底的AI改造,更新升级了Gemini1.5Pro版本,推出Gemini1.5Flash轻量化小模型、生成视频模型Veo、AI智能体ProjectAstra,并展示了与GPT-4o相似的语音视觉交互功能GeminiLive。投资要点:GPT持续迭代,GPT-4o推动人机交互再上新台阶OpenAI持续升级GPT版本,2023年3月发布GPT-4在图片识别、图文数据综合处理及逻辑推理等能力实现质变;2023年11月发布GPT-4Turbo,支持125万tokens的同时也在上下文等多个领域实现显著进步。本次发布GPT-4o带来各种能力升级:①多模态交互,具有更优质的视频和音频理解以及图像生成能力:GPT-4o能够接受文本、音频和视频的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。与现有模型相比,GPT-4o在视觉和音频理解方面有更好的表现;在理解和生成图像方面的能力优于现有模型,能完成过往模型无法完成的任务。②情绪感知:GPT-4o能够结合视频和音频感受对话者的情绪,并给出充满人类情感的反馈。例如:在根据工作人员要求讲故事时,工作人员可以随时插话打断并提出新要求,GPT-4o能几乎毫无停顿地接上话题并按照要求变化音色、语调、情感等。③毫秒级响应:GPT-4o对音频输入的响应时间可以快到232毫秒,平均为320毫秒,这与人类在对话中的响应时间相近,此前GPT-4的语音响应约5.4秒。④性能&成本优势:在传统基准测试中,GPT-4o在文本、推理和编码智能方面,达到了GPT-4Turbo级别的性能,同时在多语言、音频和视觉能力方面创下了新高。相比GPT-4Turbo,GPT-4o推理速度提升2倍的同时,价格降低50%。证券研究报告请务必阅读正文后免责条款部分2打造全新GPT语音助手且免费开放,合作苹果&微软加速端侧落地OpenAI通过GPT-4o打造的语音版ChatGPT助手,当前已在ChatGPT中开放使用,同时模型API同步放出。GPT语音助手主要功能包括与用户跨音频、视频进行交流,例如,让GPT-4o进行实时翻译、唱歌、做数学题、讲笑话等。未来,OpenAI将会在ChatGPTPlus中推出新版语音模式GPT-4o的alpha版。OpenAI与苹果合作,加速ChatGPT在端侧落地。OpenAI宣布推出一款适用于macOS的桌面级应用,使用键盘快捷键就可向ChatGPT提问。用户可通过电脑与ChatGPT语音对话,GPT-4o的新音频和视频功能后续将推出。据《每日经济新闻》援引彭博社5月10日报道,苹果被曝正与OpenAI敲定一项协议,今年将后者的部分技术引入iPhone。借此苹果将能提供由ChatGPT支持的“聊天机器人”,作为iOS18中人工智能功能的一部分。谷歌发布ProjectAstra、Veo等,多模态技术奇点加速到来2024年5月15日凌晨,GoogleI/O开发者大会上发布了通用AI智能体ProjectAstra,可实现跨文本、音频、视频多模态实时推理。同时,谷歌正式发布一款全新的视频生成模型Veo,谷歌声称,Veo能够根据文本、图像创建超过60秒的高质量1080P视频,用户可以对光照、镜头语言、视频颜色风格等进行设定。我们认为,OpenAI、谷歌等新品的推出,体现出多模态大模型技术的持续升级,GPT-4o的发布将革新人机交互模式,推动大模型在终端加速推广。随着多模态技术奇点加速到来,未来基于大模型的创新应用将更值得期待,大模型技术将全面赋能教育、办公等行业和场景。行业评级及投资策略:GPT-4o、Gemini新品陆续发布,多模态大模型技术奇点加速到来,大模型的商业价值、AI应用的创新突破以及AI算力需求的持续增长可期,维持对计算机行业“推荐”评级。相关个股:(1)大模型:科大讯飞、三六零、拓尔思、云从科技;(2)AI应用:金山办公、万兴科技、福昕软件、焦点科技、虹软科技、彩讯股份、佳发教育、鸥玛软件、拓维信息;(3)AI终端:华勤技术、软通动力、海康威视、大华股份、芯海科技、联想集团、飞荣达;(4)AI算力:浪潮信息、工业富联、中科曙光、神州数码、紫光股份、中际旭创、沪电股份、新易盛、海光信息、寒武纪等。风险提示:宏观经济影响下游需求、大模型发展不及预期、市场竞争加剧、中美博弈加剧、相关公司业绩不及预期等。证券研究报告请务必阅读正文后免责条款部分3重点关注公司及盈利预测重点公司股票2024/5/15EPSPE投资代码名称股价(元)20232024E2025E20232024E2025E评级002230.SZ科大讯飞42.840.280.360.57150.90119.5174.86买入601360.SH三六零8.51-0.070.010.03-123.471,293.77266.70未评级300229.SZ拓尔思16.630.050.300.41362.6954.8240.23未评级688111.SH金山办公279.502.853.654.9297.9576.6056.86买入300624.SZ万兴科技83.350.630.770.95133.14107.2787.62增持688095.SH福昕软件54.88-0.99-0.260.26-55.21-209.09208.67未评级002315.SZ焦点科技31.951.201.511.8426.7121.1817.37未评级688088.SH虹软科技31.090.220.350.48142.6589.2664.56未评级300634.SZ彩讯股份18.700.730.841.0425.7922.3617.9

点击免费阅读完整报告
© 2017-2023 上海俟德教育科技有限公司
沪ICP备17027418号-1 | 增值电信业务经营许可证:沪B2-20210551
回顶部
报告群
公众号
小程序
APP
在线客服
收起