强化学习^1
通过有监督微调,大语言模型已初步具备遵循人类指令并完成多类型任务的能力。然而该方法存在显著局限:首先需要构建海量指令-答案对数据集,高质量回复标注需耗费高昂人力成本;其次交叉熵损失函数要求模型输出与标准答案逐字匹配,既无法适应自然语言的表达多样性,也难以解决输出对输入微小变动的敏感性,这在需要深度推理的复杂任务中尤为突出。
当前大语言模型中的强化学习技术主要沿着两个方向演进:其一是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),通过奖励模型对生成文本进行整体质量评估,使模型能自主探索更优的回复策略,并使得模型回复与人类偏好和价值观对齐。典型如 ChatGPT 等对话系统,