下载
收藏
兼容模式
注册

ChatGPT调研报告-哈尔滨工业大学-202303.pdf

ChatGPT调研报告(仅供内部参考)哈尔滨工业大学自然语言处理研究所(HIT-NLP)2023年3月6日ChatGPT调研报告序言2022年11月30日,OpenAI推出全新的对话式通用人工智能工具——ChatGPT。ChatGPT表现出了非常惊艳的语言理解、生成、知识推理能力,它可以很好地理解用户意图,做到有效的多轮沟通,并且回答内容完整、重点清晰、有概括、有逻辑、有条理。ChatGPT上线后,5天活跃用户数高达100万,2个月活跃用户数已达1个亿,成为历史上增长最快的消费者应用程序。除了被广大用户追捧外,ChatGPT还受到了各国政府、企业界、学术界的广泛关注,使人们看到了解决自然语言处理这一认知智能核心问题的一条可能的路径,并被认为向通用人工智能迈出了坚实的一步,将对搜索引擎构成巨大的挑战,甚至将取代很多人的工作,更将颠覆很多领域和行业。哈工大自然语言处理研究所组织多位老师和同学撰写了本调研报告,从技术原理、应用场景、未来发展等方面对ChatGPT进行了尽量详尽的介绍及总结。本报告仅供内部参考。主要编撰人员第一章由车万翔、杨沐昀、张伟男、赵妍妍、冯骁骋、孙承杰、李佳朋编写;第二章由张伟男、隋典伯、高翠芸、朱庆福、李明达、王雪松编写;第三章由刘铭、朱聪慧、汤步洲编写;第四章由徐永东、高翠芸、朱庆福编写;第五章由杨沐昀、张伟男、韩一、庄子彧编写;第六章由隋典伯、高翠芸编写;第七章由车万翔、刘铭编写。参与各章审校工作的还有:崔一鸣、徐志明等。报告整体由车万翔统稿。2ChatGPT调研报告目录第一章ChatGPT的背景与意义61.1自然语言处理的发展历史..61.2大规模预训练语言模型的技术发展历程.81.3ChatGPT技术发展历程...81.3.1ChatGPT的相关技术101.3.2ChatGPT技术发展脉络的总结.111.3.3ChatGPT的未来技术发展方向.121.4ChatGPT的优势与劣势...131.4.1ChatGPT的优势...131.4.2ChatGPT的劣势...151.5ChatGPT的应用前景....161.5.1在人工智能行业的应用前景及影响.....171.5.2在其他行业的应用前景及影响..171.6ChatGPT带来的风险与挑战19第二章ChatGPT相关核心算法242.1基于Transformer的预训练语言模型..242.1.1编码预训练语言模型(Encoder-onlyPre-trainedMod-els)....242.1.2解码预训练语言模型(Decoder-onlyPre-trainedMod-els)....252.1.3基于编解码架构的预训练语言模型(Encoder-decoderPre-trainedModels)282.2提示学习与指令精调.....302.2.1提示学习概述.....303ChatGPT调研报告2.2.2ChatGPT中的指令学习.....312.3思维链(ChainofThought,COT)..322.4基于人类反馈的强化学习(ReinforcementLearningwithHu-manFeedback,RLHF)..33第三章大模型训练与部署353.1大模型并行计算技术.....353.2并行计算框架...363.3模型部署.....403.3.1预训练模型部署的困难403.3.2部署框架和部署工具.413.3.3部署技术和优化方法.433.4预训练模型的压缩453.4.1模型压缩方案概述..453.4.2结构化模型压缩策略.453.4.3非结构化模型压缩策略463.4.4模型压缩小结.....46第四章ChatGPT相关数据集484.1预训练数据集...484.1.1文本预训练数据集..484.1.2代码预训练数据集..504.2人工标注数据规范及相关数据集.....524.2.1指令微调工作流程及数据集构建方法....534.2.2常见的指令微调数据集534.2.3构建指令微调数据集的关键问题.54第五章大模型评价方法595.1模型评价方式...595.1.1人工评价.595.1.2自动评价.605.2模型评价指标...625.2.1准确性...625.2.2不确定性.635.2.3攻击性...634ChatGPT调研报告5.2.4毒害性...645.2.5公平性与偏见性....655.2.6鲁棒性...665.2.7高效性...675.3模型评价方法小结68第六章现有大模型及对话式通用人工智能系统696.1现有大模型对比..696.2对话式通用人工智能系统调研726.2.1对话式通用人工智能系统....726.2.2不同系统之间的比较.75第七章自然语言处理的未来发展方向807.1提高ChatGPT的能力....807.2加深对模型的认识817.3实际应用.....827.4从语言到AGI的探索之路..835ChatGPT调研报告第一章ChatGPT的背景与意义本章首先介绍自然语言处理、大规模预训练语言模型以及ChatGPT技术的发展历程,接着就ChatGPT的技术优点和不足进行分析,然后讨论ChatGPT可能的应用前景,最后展望ChatGPT普及后可能带来的风险与挑战。1.1自然语言处理的发展历史人类语言(又称自然语言)具有无处不在的歧义性、高度的抽象性、近乎无穷的语义组合性和持续的进化性,理解语言往往需要具有一定的知识和推理等认知能力,这些都为计算机处理自然语言带来了巨大的挑战,使其成为机器难以逾越的鸿沟。因此,自然语言处理被认为是目前制约人工智能取得更大突破和更广泛应用的瓶颈之一,又被誉为“人工智能皇冠上的明珠”。国务院2017年印发的《新一代人工智能发展规划》将知识计算与服务、跨媒体分析推理和自然语言处理作为新一代人工智能关键共性技术体系的重要组成部分。自然语言处理自诞生起,经历了五次研究范式的转变(如图1.1所示):由最开始基于小规模专家知识的方法,逐步转向基于机器学习的方法。机器学习方法也由早期基于浅层机器学习的模型变为了基于深度学习的模型。为了解决深度学习模型需要大量标注数据的问题,2018年开始又全面转向基于大规模预训练语言模型的方法,其突出特点是充分利用大模型、大数据和大计算以求更好效果。近期,ChatGPT表现出了非常惊艳的语言理解、生成、知识推理能力,它可以极好地理解用户意图,真正做到多轮沟通,并且回答内容完整、重点清晰、有概括、有逻辑、有条理。ChatGPT的成功表现,使人们看到了解决自然语言处理这一认知智能核心问题的一条可能的路径,并被认为向通用人工智能迈出了坚实的一步,将对搜索引擎构成巨大的挑战,甚至将取代很6ChatGPT调研报告小规模专家知识1950~1990浅层机器学习算法1990~2010深度学习算法2010~2017预训练语言模型2018~2023ChatGPT2023~?图1.1:自然语言处理研究范式的发展历程多人的工作,更将颠覆很多领域和行业。那么,ChatGPT到底解决了什么本质科学问题,才能变得如此强大并受到广泛的关注呢?我们认为,ChatGPT是继数据库和搜索引擎之后的全新一代的“知识表示和调用方式”。知识在计算机内的表示是人工智能的核心问题。如表1.

资料
相似推荐
相似报告推荐
查看更多>> 相似图表推荐
查看更多>>
微信群
在线客服