朝闻道 (Page 7)

12 Jun 2026 博客

多模态大语言模型

多模态大语言模型^1 2023 年 3 月，GPT-4 的发布标志着大语言模型首次支持视觉模态输入，赋予其理解图像并生成相关自然语言内容的能力[65]。一年后，2024 年 5 月推出的 GPT-4o 更进一步，实现了文本、图像和语音等多模态信息的深度融合，使 ChatGPT 转型为具备实时语音对话能力的数字个人助理。GPT-4o 在视觉和语音交互方面表现尤为突出，能够查看用户上传的屏幕截图、

强化学习

12 Jun 2026 博客

强化学习^1 通过有监督微调，大语言模型已初步具备遵循人类指令并完成多类型任务的能力。然而该方法存在显著局限：首先需要构建海量指令-答案对数据集，高质量回复标注需耗费高昂人力成本；其次交叉熵损失函数要求模型输出与标准答案逐字匹配，既无法适应自然语言的表达多样性，也难以解决输出对输入微小变动的敏感性，这在需要深度推理的复杂任务中尤为突出。当前大语言模型中的强化学习技术主要沿着两个方向演进：其一是基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF），通过奖励模型对生成文本进行整体质量评估，使模型能自主探索更优的回复策略，并使得模型回复与人类偏好和价值观对齐。典型如 ChatGPT 等对话系统，

指令微调

12 Jun 2026 博客

指令微调

指令微调^1 指令微调又称有监督微调，是指在预训练大语言模型的基础上，通过使用有标注的自然语言形式的数据，对模型参数进行微调，使模型具备指令遵循（Instruction Following）能力，能够完成各类预先设计的任务，并可以在零样本情况下处理诸多下游任务。经过海量数据预训练后的语言模型虽然具备了大量的“知识”，但是由于其训练时的目标仅是进行下一个词的预测，因此不能够理解并遵循人类自然语言形式的指令。为了使模型具有理解并响应人类指令的能力，还需要使用指令数据对其进行调整。如何构造指令数据，如何高效低成本地进行指令微调训练，以及如何在语言模型基础上进一步扩大上下文等问题，是大语言模型在指令微调阶段的核心。本章先介绍大语言模型指令微调训练方法，在此基础上介绍高效模型微调及模型上下文窗口扩展方法，最后介绍指令微调的代码实践。

分布式训练

12 Jun 2026 博客

分布式训练

分布式训练^1 随着大语言模型参数量和所需训练数据量的急速增长，单个机器上有限的资源已无法满足其训练的要求。需要设计分布式训练系统来解决海量的计算和内存资源需求问题。在分布式训练系统环境下，需要将一个模型训练任务拆分成多个子任务，并将子任务分发给多个计算设备，从而解决资源瓶颈。如何才能利用数万个计算加速芯片的集群，训练千亿甚至万亿参数规模的大语言模型？这其中涉及集群架构、并行策略、模型架构、内存优化、计算优化等一系列的技术。本章将介绍分布式机器学习系统的基础概念、分布式训练的并行策略、分布式训练的集群架构，并以 DeepSpeed 为例，介绍如何在集群上训练大语言模型。分布式训练概述分布式训练（

大语言模型预训练数据

12 Jun 2026 博客

大语言模型预训练数据

大语言模型预训练数据^1 在预训练阶段，大语言模型从海量“高质量”文本数据中学习广泛的知识，随后这些知识存储在其模型参数当中。通过预训练使得大语言模型具备了一定程度的语言理解和生成能力。因此，如何构造海量“高质量”数据对于大语言模型预训练具有至关重要的作用。研究表明，预训练数据需要涵盖各种类型的文本，也需要覆盖尽可能多的领域、语言、文化和视角，从而提高大语言模型的泛化能力和适应性。当前大模型预训练使用的语料库涵盖网页内容、学术资料、百科、社交媒体和书籍等文本内容，同时也包含来自不同领域的文本内容，比如法律文件、年度财务报告、