查一查

计算机行业动态研究：GPT-4o、Gemini新品接连发布，多模态技术奇点加速到来.pdf

2024-05-16 22:35

国海证券

刘熹

计算机行业动态研究：GPT-4o、Gemini新品接连发布，多模态技术奇点加速到来.pdf

国海证券研究所请务必阅读正文后免责条款部分2024年05月16日行业研究评级：推荐(维持)研究所：证券分析师：刘熹S0350523040001liux10@ghzq.com.cn[Table_Title]GPT-4o、Gemini新品接连发布，多模态技术奇点加速到来——计算机行业动态研究最近一年走势行业相对表现2024/05/16表现1M3M12M计算机5.1%6.2%-25.0%沪深3003.7%8.2%-8.5%相关报告《计算机事件点评：运营商AI服务器订单超预期，国产化不断提速（推荐）*计算机*刘熹》——2024-04-22《计算机行业动态研究：阶跃星辰发布Step-2万亿参数模型，AI应用+算力景气上行（推荐）*计算机*刘熹》——2024-03-26《AI算力月度跟踪（202403）：NVIDIAB200再创算力奇迹，液冷、光模块持续革新（推荐）*计算机*刘熹》——2024-03-24《计算机行业事件点评：NVIDIAH20或将与国产算力同步高增（推荐）*计算机*刘熹》——2024-03-03《计算机行业月报：英伟达业绩再超预期，国产算力需求再扩大（推荐）*计算机*刘熹》——2024-02-28事件：2024年5月14日，OpenAI在官网正式发布新旗舰模型GPT-4o多模态大模型，其中o代表的是omni，即“全能”，GPT-4o可以实时对音频、视觉和文本进行推理，相较于GPT-4Trubo速度更快、价格更便宜。2024年5月15日，2024年谷歌I/O大会正式召开，会上谷歌将搜索业务做了最彻底的AI改造，更新升级了Gemini1.5Pro版本，推出Gemini1.5Flash轻量化小模型、生成视频模型Veo、AI智能体ProjectAstra，并展示了与GPT-4o相似的语音视觉交互功能GeminiLive。投资要点:GPT持续迭代，GPT-4o推动人机交互再上新台阶OpenAI持续升级GPT版本，2023年3月发布GPT-4在图片识别、图文数据综合处理及逻辑推理等能力实现质变；2023年11月发布GPT-4Turbo，支持125万tokens的同时也在上下文等多个领域实现显著进步。本次发布GPT-4o带来各种能力升级：①多模态交互，具有更优质的视频和音频理解以及图像生成能力：GPT-4o能够接受文本、音频和视频的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出。与现有模型相比，GPT-4o在视觉和音频理解方面有更好的表现；在理解和生成图像方面的能力优于现有模型，能完成过往模型无法完成的任务。②情绪感知：GPT-4o能够结合视频和音频感受对话者的情绪，并给出充满人类情感的反馈。例如：在根据工作人员要求讲故事时，工作人员可以随时插话打断并提出新要求，GPT-4o能几乎毫无停顿地接上话题并按照要求变化音色、语调、情感等。③毫秒级响应：GPT-4o对音频输入的响应时间可以快到232毫秒，平均为320毫秒，这与人类在对话中的响应时间相近，此前GPT-4的语音响应约5.4秒。④性能＆成本优势：在传统基准测试中，GPT-4o在文本、推理和编码智能方面，达到了GPT-4Turbo级别的性能，同时在多语言、音频和视觉能力方面创下了新高。相比GPT-4Turbo，GPT-4o推理速度提升2倍的同时，价格降低50%。证券研究报告请务必阅读正文后免责条款部分2打造全新GPT语音助手且免费开放，合作苹果＆微软加速端侧落地OpenAI通过GPT-4o打造的语音版ChatGPT助手，当前已在ChatGPT中开放使用，同时模型API同步放出。GPT语音助手主要功能包括与用户跨音频、视频进行交流，例如，让GPT-4o进行实时翻译、唱歌、做数学题、讲笑话等。未来，OpenAI将会在ChatGPTPlus中推出新版语音模式GPT-4o的alpha版。OpenAI与苹果合作，加速ChatGPT在端侧落地。OpenAI宣布推出一款适用于macOS的桌面级应用，使用键盘快捷键就可向ChatGPT提问。用户可通过电脑与ChatGPT语音对话，GPT-4o的新音频和视频功能后续将推出。据《每日经济新闻》援引彭博社5月10日报道，苹果被曝正与OpenAI敲定一项协议，今年将后者的部分技术引入iPhone。借此苹果将能提供由ChatGPT支持的“聊天机器人”，作为iOS18中人工智能功能的一部分。谷歌发布ProjectAstra、Veo等，多模态技术奇点加速到来2024年5月15日凌晨，GoogleI/O开发者大会上发布了通用AI智能体ProjectAstra，可实现跨文本、音频、视频多模态实时推理。同时，谷歌正式发布一款全新的视频生成模型Veo，谷歌声称，Veo能够根据文本、图像创建超过60秒的高质量1080P视频，用户可以对光照、镜头语言、视频颜色风格等进行设定。我们认为，OpenAI、谷歌等新品的推出，体现出多模态大模型技术的持续升级，GPT-4o的发布将革新人机交互模式，推动大模型在终端加速推广。随着多模态技术奇点加速到来，未来基于大模型的创新应用将更值得期待，大模型技术将全面赋能教育、办公等行业和场景。行业评级及投资策略：GPT-4o、Gemini新品陆续发布，多模态大模型技术奇点加速到来，大模型的商业价值、AI应用的创新突破以及AI算力需求的持续增长可期，维持对计算机行业“推荐”评级。相关个股：（1）大模型：科大讯飞、三六零、拓尔思、云从科技;（2）AI应用：金山办公、万兴科技、福昕软件、焦点科技、虹软科技、彩讯股份、佳发教育、鸥玛软件、拓维信息;（3）AI终端：华勤技术、软通动力、海康威视、大华股份、芯海科技、联想集团、飞荣达；（4）AI算力：浪潮信息、工业富联、中科曙光、神州数码、紫光股份、中际旭创、沪电股份、新易盛、海光信息、寒武纪等。风险提示：宏观经济影响下游需求、大模型发展不及预期、市场竞争加剧、中美博弈加剧、相关公司业绩不及预期等。证券研究报告请务必阅读正文后免责条款部分3重点关注公司及盈利预测重点公司股票2024/5/15EPSPE投资代码名称股价（元）20232024E2025E20232024E2025E评级002230.SZ科大讯飞42.840.280.360.57150.90119.5174.86买入601360.SH三六零8.51-0.070.010.03-123.471,293.77266.70未评级300229.SZ拓尔思16.630.050.300.41362.6954.8240.23未评级688111.SH金山办公279.502.853.654.9297.9576.6056.86买入300624.SZ万兴科技83.350.630.770.95133.14107.2787.62增持688095.SH福昕软件54.88-0.99-0.260.26-55.21-209.09208.67未评级002315.SZ焦点科技31.951.201.511.8426.7121.1817.37未评级688088.SH虹软科技31.090.220.350.48142.6589.2664.56未评级300634.SZ彩讯股份18.700.730.841.0425.7922.3617.9

点击免费阅读完整报告