人工智能大模型技术财务应用蓝皮书
11
微调(Fine-Tuning):微调将预训练后的大模型(基础模型,具备通用的语言能力)适配到目标任务上,这通常需
要在有标注的语料集上进行训练。微调包括指令微调和对齐,前者使用针对目标任务所构建的指令格式的语料集(典型
的如问答对)来继续训练基础模型,旨在增强(或解锁)基础模型在目标任务上的能力,如监督微调(Supervised FineTuning)、多任务微调等;后者旨在使用经过人类反馈校准的语料将模型的行为与人的价值观、偏好对齐,如基于人类
反 馈 强 化 学 习(Reinforcement Learning from Human Feedback,RLHF) 和 DPO( 直 接 偏 序 优 化,Direct Preference
Optimization)等。此外,在具体应用场景下还可以针对特定目标进行高效微调,如适配器微调(Adapter Tuning)、前
缀微调(Prefix Tuning)、提示微调(Prompt Tuning)和低秩适配(LoRA)等,它们通过在大模型中新增一些额外参数
进行训练,并不改动大模型原有参数来将大模型适配到特定目标上。
大模型的推理过程(主要是解码过程,即把用户输入从大模型中的内部表示逐字生成出最终的文本输出的过程)同样
是成本较高的。在不同任务中为了平衡准确性、多样性和生成速度,在解码策略上也有多种考虑,如贪心搜索(Greedy
Search,速度较快但可能损失连贯性)、束搜索(Beam Search,连贯性好但速度慢)以及 Top-k Sampling、Top-p
Sampling(引入随机采样,多样性更好但牺牲精确性)等,在不同应用场景中的选择根据任务对创造性和精确性的要求而定。
综上所示,大模型的构建(训练)到推理是工程复杂、成本很高的过程,包括巨大规模训练语料的准备、模型架构设计、
预训练、微调以及解码策略等多个层面。巨大的算力消耗和对数据质量、训练技巧的敏感性,使得预训练功能强大的大模
型非常困难,为了研究大模型的各种训练策略的效果而进行重复消融实验的成本极高,使得相关的实验和研究几乎不能进行。
在将大模型与人类的价值观和偏好对齐、减少幻觉和安全风险的问题上也存在很大的挑战,这也加大了在实际应用中二次
微调大模型的风险,使得提示词(Prompt)成为当前大模型使用的主要途径。
1.3 人工智能大模型技术发展历程及现状
大模型本质上是对人类语言系统的一种人工智能建模技术,通过学习和融合巨量的自然语言、图像、代码等多种模态
数据,已呈现出接近甚至超越人类的认知、计算和推理能力,摘得了人工智能领域的圣杯—能够顺利通过由计算机科学的
先驱艾伦·麦席森·图灵于 1950 提出的图灵测试。因此,大模型被部分专家和学者视为通用人工智能(General Artificial
Intelligence, GAI)的早期形态。
大模型技术的发展历程是自然语言处理、神经网络模型与加速计算技术深度融合和发展的产物。早期的自然语言处理
分为规则学派和统计学派,前者试图通过建构系统的形式语言理论体系对自然语言建模,典型的代表是乔姆斯基范式;后
者则尝试使用概率模型对自然语言建模。规则学派兴起于 20 世纪中期,式微于 20 世纪末;统计学派始于 20 世纪中后期,
其中神经网络学习理论最早由图灵奖得主 Geoff Hinton 在 1986 年提出,也是大模型技术最早的萌芽。如果将神经网络学
习理论的提出视为大模型技术的发轫,根据神经网络语言模型的里程碑进展,可以将大模型的发展历程分为四个阶段:统
计语言模型(Statistical Language Model,SLM)、神经网络语言模型(Neural Language Model,NLM)、预训练语言模
型(Pretrain Language Model,PLM)和大模型(Large Language Model,LLM)。
大模型四个阶段的语言模型都属于概率语言模型,将自然语言视为有先后顺序的序列数据,其主要区别在于文本特征
的表示方法以及语言序列概率的计算方法。统计语言模型以字符或词组为基本语言要素,主要使用最大似然估计方法基于
共现频次计算语言基本要素共同出现的条件概率;神经网络语言模型、预训练语言模型及大模型则使用稠密向量表示文本
语义,并使用深度神经网络结构学习自然语言的内在语义表达逻辑。因此,神经网络语言模型、预训练语言模型以及大模
型可以认为是同一技术路线的不同发展阶段,三者之间有着更加紧密和连续的关系,主要体现在从预训练语言模型相比神
经网络语言模型的进展、大模型相比预训练模型的进展、国内大模型以及财务领域大模型应用发展现状四个方面。