注册

2023年AIGC应用app智能化评测报告-月狐-202403.pdf

月狐数据(MoonFoxData)2023AIGC应用app智能化评测报告2024年3月2CONTENTS研究背景与评估体系介绍01评估结果与案例展示02趋势与展望033研究背景与评估体系介绍PART014研究背景:AIGC产品快速迭代,普及率持续提升数据来源:月狐iAPP(MoonFoxiApp);取数周期:2023.07-2023.12截止2023年12月生成式AI移动应用全网安装渗透率6.7%,MAU达2,012.6万•2023年AI大模型迎来创新浪潮,各大厂商密集推出和迭代基于大模型的AIGC应用产品,应用场景覆盖AI对话、写作、学习、媒体创作、办公商务等领域,满足用户多功能需求•与此同时,用户对于AIGC产品的使用兴趣度不断提升,生成式AI普及范围持续扩大,数据显示,截止2023年12月,生成式AI移动应用全网安装渗透率达6.7%,MAU已超2000万,其中文心一言、天工、讯飞星火、豆包等主流app产品用户规模呈现快速增长态势对话通用多媒体创作写作辅助文心一言通义千问豆包讯飞星火天工智谱清言360智脑ChatGPTNotionAI办公商务妙鸭相机笔灵AI写作小鱼AI写作学习/翻译万彩AI通义舞王闪剪怪兽AI数字人光速写作快问AI星火语伴AI论文写作AI口语陪练海豚AI学钉钉AI吐司TusiArtGPTBOTS.AI腾讯智影WPSAI办公通用电商AiPPT有道速读通义听悟美图AIPPT超会AI摹小仙设计水母智能设计筑绘通法律海瑞智法庖丁解文法小开编程CodeGeeXCopilot0200400600800x10000文心一言app豆包app讯飞星火app天工app智谱清言app主流AIGC应用appMAU变化AIGC应用场景图谱百姓AI讯飞智能翻译百度文库息流AI5AIGC应用app智能化评估体系介绍测量模型来源:月狐研究院一级指标二级指标指标解释基础能力上下文理解能力是否能理解用户输入的上下文,生成更连贯、具有逻辑性的回答多模态能力包括绘画、图片解析、语音交流方面的能力多语言支持对外国语问题的理解和回答情况内容实时性是否能够提供最新的信息、数据内容创新性生成的内容是否具备创造性、独特性、创意性等使用体验使用成本个人用户能否免费使用app产品功能响应速度根据长字段指令的回应速度、长字段输出的速度、封闭题答题时间、作图时间等综合评估稳定性面对异常/未知输入(如在提示词中加入拼写错误的词、近义词等)是否能够准确理解和输出回答真实性输出的内容出现幻觉/不真实情况的频次安全合规对敏感词的检测严格度过滤潜在危险/敏感信息,拒绝回答或报错的频次,反映对敏感词检测的严格程度不合规问题回应对涉及违法犯罪、道德伦理、隐?Do?K?? | ?F?y?答情况一级指标二级指标指标解释生成质量创意写作包括自媒体、编剧、新闻稿、市场营销、行业分析等方面的文稿创作能力多轮行程规划是否能根据指令进行行程重新规划的能力角色扮演是否能够支持扮演特定角色,并与用户进行流畅、沉浸式对话的能力逻辑与推理包括简单推理、复杂推理、分析/总结/归类、代码编程等能力情感对话是否支持代入特定人设(虚拟情侣),与用户进行流畅对话、提供情感支撑的能力情商问答与人际交往相关的情商问题的回应能力数学与计算包括初高中数学题、高数题、复杂计算题等回答情况专业知识问答对历史、政治、文学、物理、生物、化学等学科知识问题的回答情况智能体能力个性化程度智能体创建设定条件的多样化,反映用户创建智能体的自由度角色还原度名人、明星、动漫人物等智能体在形象、声音、语气、性格等方面对本体的还原程度交互沉浸度从视、听、说方面智能体是否能给用户带来沉浸的交互体验内容契合度智能体生成的内容多大程度上与设定的条件特征契合•目前市面AIGC产品众多,且底层技术和产品功能的更新迭代速度较快,为此本报告推出AIGC应用app智能化评估体系,旨在通过量化指标测量AIGC应用产品在技术能力、使用体验上的优势,帮助广大用户更直观地了解和选择AIGC产品•AIGC应用app智能化评估体系由基础能力、使用体验、生成质量、智能体能力、安全合规5个一级指标以及23个二级指标构成,其中智能体能力是我们基于大模型技术的最新发展趋势所增设的评测维度,智能体是指以AI为核心构建的一个集合立体感知、全域协同、精准判断、持续进化等特征的智能系统,是各家大模型厂商目前着重布局的应用场景,基于智能体功能用户可以按照自己的需求打造出更具个性化的AIGC方案,因此加入智能体能力评测指标,一方面能够更加全方位地测量AIGC应用产品的能力,除了大模型的底层能力之外,也能测量到大模型技术的应用场景落地能力,另一方面能够直观体现国产大模型的最新发展进程6天工app360智脑app智谱清言app文心一言app通义千问app讯飞星火app豆包app封闭题开放题5分答案正确且有较完整的解读和推理过程答案趋近完美,可在实际场景中直接使用4分答案正确但解读和推理较简单答案较完美,基本可在实际场景中使用3分答案正确但无解读和推理过程答案需人工微调后在实际场景中使用2分答案错误但有解读和推理过程答案需要较多人工调整后在实际场景中使用1分答案错误且无解读和推理过程答案完全不可在实际场景中使用0分回答不出来或无法提供答案回答不出来或无法提供答案AIGC应用app智能化指数评估方法测量模型来源:月狐研究院•题目数量:500道•题型:包含封闭题、开放题•题目来源:C-Eval、清华社研究院、月狐研究院自主设计•封闭题主要采用接入API的方式进行自动化测试和评分•开放题通过专家团队评分•最终的智能化指数根据题目积分来计算评分规则测试题库设置评估对象•评估对象为国内主流的拥有自主大模型的对话式AIGC移动应用7评估结果与案例展示PART028AIGC应用app智能化综合评估结果测量模型来源:月狐研究院•评估结果显示,文心一言app智能化综合指数位居第一,其次是讯飞星火app、豆包app等•拆分二级指标来看,文心一言app在基础能力、安全合规、使用体验、生成质量、智能体能力各方面表现突出,除此之外,通义千问、智谱清言app在基础能力方面也相对领先,讯飞星火、天工app在安全合规方面也展现出较明显的优势天工app360智脑app智谱清言app通义千问app豆包app讯飞星火app文心一言appAIGC应用app智能化指数排行8.887.287.067.036.826.415.680246810安全合规基础能力生成质量使用体验智能体能力文心一言app通义千问app讯飞星火app豆包app天工app360智脑app智谱清言appAIGC应用app智能化指数二级指标表现901AIGC应用app基础能力表现0246810多模态能力多语言支持上下文理解能力内容实时性内容创新性文心一言app通义千问app讯飞星火app豆包app天工app360智脑app智谱清言appAIGC应用app基础能力细分维度表现上下文理解能力文心一言app具备更强的记忆力,在多轮对话情景下基本能够较顺畅地衔接上下文,生成更连贯、更具逻辑性的对话内容02多模态能力文心一言app在多模态能力上的表现也较为突出,除了具备较强的图画生成能力,还支持在对话框上传图片和

相似报告推荐
查看更多>> 相似图表推荐
查看更多>>
微信群
在线客服