查一查

AIGC行业专题报告：从文生图到文生视频—技术框架与商业化-国海证券-20231102.pdf

2023-11-02 18:20

AIGC专题报告：从文生图到文生视频——技术框架与商业化陈梦竹(证券分析师)尹芮(证券分析师)S0350521090003S0350522110001chenmz@ghzq.com.cnyinr@ghzq.com.cn评级：推荐(维持)证券研究报告2023年11月2日海外请务必阅读报告附注中的风险提示和免责声明2相对恒生指数表现（%）表现1M3M12M港股互联网-8.6014.7950.09恒生指数-5.72-10.231.47最近一年走势相关报告《从Roblox进化看AIGC游戏未来—Roblox(RBLX.N)深度复盘：二十年沉淀，四阶段演绎（增持）*海外*杨仁文，马川琪，陈梦竹，姚蕾》——2023-09-24《创新奇智（02121）动态研究报告：业绩维持高速增长，“AI+制造”赋能长期发展（买入）*IT服务Ⅱ*陈梦竹》——2023-09-14《商汤-W（00020）2023H1业绩点评：生成式AI有望成为业务新驱动，整体亏损收窄（增持）*IT服务Ⅱ*陈梦竹》——2023-09-08《网易-S（9999.HK）公司动态研究：利润超预期，新游表现强劲，期待后续业绩释放（买入）*游戏Ⅱ*陈梦竹，尹芮》——2023-09-03《焦点科技（002315）2023H1财报点评：业务调整拖累营收增速，利润端实现稳健增长（买入）*互联网电商*陈梦竹》——2023-09-03-20%-10%0%10%20%30%40%50%60%港股互联网指数恒生指数请务必阅读报告附注中的风险提示和免责声明3核心提要1、底层模型技术框架梳理文生图和文生视频的底层技术框架较为相似，主要包括GAN、自回归和扩散模型三大路径，其中扩散模型（Diffusionmodel）为当前主流生成模型，多个指标对比下综合占优，能在较为可控的算力成本和较快的速度下生成具备多样性、高质量的图像：①图像质量：扩散模型>自回归模型>GAN模型。FID值（FréchetInceptionDistancescore）是用于评估模型生成的图像质量的指标，是用来计算真实图像与生成图像的特征向量间距离的一种度量。FID值越小，可以认为图像质量在一定程度上越优。从不同模型的FID得分来看，扩散模型平均数较小，反应图像质量较高。②参数量：自回归模型>扩散模型>GAN模型。GAN的参数量一般在千万级别，整体较为轻巧，扩散模型的参数量在十亿级别，自回归模型在十亿到百亿级不等。③生成速度（由快到慢）：GAN模型>扩散模型>自回归模型。生成速度与参数量级为负相关关系。④训练成本：自回归>扩散模型>GAN模型。由于参数量级较小，GAN模型训练成本小且开源模型多，仍具备一定优势。而自回归模型参数量级较大，整体训练成本更高。在单张A100GPU下，120亿参数的DALL-E需要18万小时，200亿参数的Parti更是需要超过100万小时，扩散模型参数量在十亿级别，整体训练成本较为适中。2、商业化模式及成本拆分⚫文生图商业化模型：当前主要的商业化方式包括基于GPU时间/生成次数/API接口调用/个性化定价等方式。根据我们调研，以Midjourney为例，单张图片生成成本约0.03~0.04美金，单张收入约0.05美金，毛利率约30%~40%，净利率约20%。⚫文生图领域整体创业门槛低于大语言模型：①模型层看：图像生成领域已有生成质量较高的开源预训练模型StableDiffusion，且SD具有较为丰富的开发者生态，有许多插件供选择。创业公司可基于StableDiffusion基础版本进行进一步调优和个性化数据训练。②成本端看：从主流模型参数规模看，文生图参数量级多在1-10B之间，而通用大模型入门级门槛达到了70B，文生图整体参数量级较小，成本远低于通用大模型。通过调研文生图初创公司，实际小团队利用开源模型，初期在用户不到1万情况下甚至无需购买A100，通过购买RTX30\40系列、IBS3060（5000~1w/张）也可以启动。我们对文生图推理算力需求也进行了测算，以10亿级参数量的模型、在100万DAU的用户量级为例，若想控制单次推理延迟时间，需部署约143张A100，整体芯片算力需求低于大语言通用模型。⚫文生图商业模式仍存疑问，长期竞争需要技术+产品+场景能力结合突破：①对于垂类AI应用：短期看头部应用通过技术/产品/成本/数据等优势突破，在C端率先开启变现，长期看针对垂类场景C端天花板相对明确，搭建工程化能力可技术输出到B端场景，探索更多变现可能。②对于现有应用叠加AI功能：短期通过AI功能引入提升产品体验和用户粘性；长期看基于现有高频场景，用户壁垒更强、不易流失，用户ARPU和付费率有望提升。3、文生图代表模型及应用从模型和应用看，海外OpenAI、谷歌、微软、Meta、Midjourney、StabilityAI都推出了各自的文生图模型，国内百度、美图、万兴科技、新国都等均推出各自AI应用。从生成效果看Midjourney、Adobe和StableDiffusion综合较优，OpenAI最新升级DALL-E3模型将与ChatGPT集成，多模态交互能力持续提升，有望带来新的场景突破。4、行业评级及理由：文生图和文生视频底层技术不断演进、模型持续迭代，涌现出一批优质原生AI应用，在C端开创了全新的应用体验，同时在B端游戏、营销、影视制作、文旅、电商等多个行业均开启应用，实现降本增效，长期有望进一步打开商业化空间。我们看好AI多模态行业投资机会，维持行业“推荐”评级，建议关注微软、Meta、Adobe、谷歌、百度、阿里巴巴、美图、万兴科技、新国都等相关标的。5、风险提示：竞争加剧风险、内容质量不佳风险、用户流失风险、政策监管风险、变现不及预期风险、估值调整风险等。请务必阅读报告附注中的风险提示和免责声明4报告目录一、底层模型技术框架梳理5文生图：基于文本生成图像，StableDiffusion开源后迎来快速发展文生视频：与文生图底层技术一致，自回归和扩散模型为主流生成技术路径：从GAN到Diffusion，模型持续优化迭代文生图模型竞争格局人工智能监管：中欧美均发布相关条例，引导生成式AI规范发展GAN：通过生成器和判别器对抗训练提升图像生成能力GAN：在早期文本生成视频领域也有所应用自回归模型：采用Transformer结构中的自注意力机制自回归模型：生成视频相比GAN更加连贯和自然扩散模型：当前主流路径，通过添加噪声和反向降噪推断生成图像CLIP：实现文本和图像特征提取和映射，训练效果依赖大规模数据集扩散模型：当前也为文生视频主流技术路径模型对比：扩散模型图像质量最优，自回归模型相对训练成本最高图像生成模型的困境：多个指标中求取平衡，目前Diffusion综合占优文本生成视频模型仍存在许多技术难点，生成效果有待提升二、商业化模式及成本拆分22文生图商业化图片生成模型成本拆分：以Midjourney为例平均来看自回归模型成本最高，生成视频成本远高于生成图片图像生成应用的竞争壁垒依赖技术和产品能力双驱动下的飞轮效应文生图领域整体创业门槛低于大语言模型，商业模式仍存疑问部分文生图&视频应用商业化情况文生图推理算力需求测算文生视频推理算力需求测算如何看待文生图竞争格局？

点击免费阅读完整报告