多模态大语言模型

多模态大语言模型^1 2023 年 3 月,GPT-4 的发布标志着大语言模型首次支持视觉模态输入,赋予其理解图像并生成相关自然语言内容的能力[65]。一年后,2024 年 5 月推出的 GPT-4o 更进一步,实现了文本、图像和语音等多模态信息的深度融合,使 ChatGPT 转型为具备实时语音对话能力的数字个人助理。GPT-4o 在视觉和语音交互方面表现尤为突出,能够查看用户上传的屏幕截图、

强化学习

强化学习^1 通过有监督微调,大语言模型已初步具备遵循人类指令并完成多类型任务的能力。然而该方法存在显著局限:首先需要构建海量指令-答案对数据集,高质量回复标注需耗费高昂人力成本;其次交叉熵损失函数要求模型输出与标准答案逐字匹配,既无法适应自然语言的表达多样性,也难以解决输出对输入微小变动的敏感性,这在需要深度推理的复杂任务中尤为突出。 当前大语言模型中的强化学习技术主要沿着两个方向演进:其一是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),通过奖励模型对生成文本进行整体质量评估,使模型能自主探索更优的回复策略,并使得模型回复与人类偏好和价值观对齐。典型如 ChatGPT 等对话系统,

指令微调

指令微调^1 指令微调又称有监督微调,是指在预训练大语言模型的基础上,通过使用有标注的自然语言形式的数据,对模型参数进行微调,使模型具备指令遵循(Instruction Following)能力,能够完成各类预先设计的任务,并可以在零样本情况下处理诸多下游任务。经过海量数据预训练后的语言模型虽然具备了大量的“知识”,但是由于其训练时的目标仅是进行下一个词的预测,因此不能够理解并遵循人类自然语言形式的指令。为了使模型具有理解并响应人类指令的能力,还需要使用指令数据对其进行调整。如何构造指令数据,如何高效低成本地进行指令微调训练,以及如何在语言模型基础上进一步扩大上下文等问题,是大语言模型在指令微调阶段的核心。 本章先介绍大语言模型指令微调训练方法,在此基础上介绍高效模型微调及模型上下文窗口扩展方法,最后介绍指令微调的代码实践。

分布式训练

分布式训练^1 随着大语言模型参数量和所需训练数据量的急速增长,单个机器上有限的资源已无法满足其训练的要求。需要设计分布式训练系统来解决海量的计算和内存资源需求问题。在分布式训练系统环境下,需要将一个模型训练任务拆分成多个子任务,并将子任务分发给多个计算设备,从而解决资源瓶颈。如何才能利用数万个计算加速芯片的集群,训练千亿甚至万亿参数规模的大语言模型?这其中涉及集群架构、并行策略、模型架构、内存优化、计算优化等一系列的技术。 本章将介绍分布式机器学习系统的基础概念、分布式训练的并行策略、分布式训练的集群架构,并以 DeepSpeed 为例,介绍如何在集群上训练大语言模型。 分布式训练概述 分布式训练(

大语言模型预训练数据

大语言模型预训练数据^1 在预训练阶段,大语言模型从海量“高质量”文本数据中学习广泛的知识,随后这些知识存储在其模型参数当中。通过预训练使得大语言模型具备了一定程度的语言理解和生成能力。因此,如何构造海量“高质量”数据对于大语言模型预训练具有至关重要的作用。研究表明,预训练数据需要涵盖各种类型的文本,也需要覆盖尽可能多的领域、语言、文化和视角,从而提高大语言模型的泛化能力和适应性。当前大模型预训练使用的语料库涵盖网页内容、学术资料、百科、社交媒体和书籍等文本内容,同时也包含来自不同领域的文本内容,比如法律文件、年度财务报告、

Episode

00:00:00 00:00:00
苏ICP备19018690号-1