大型语言模型(LLM)是一种深度学习模型,它们预先在海量文本数据上进行训练,参数数量通常高达数十亿甚至数万亿。这些模型基于Transformer神经网络结构,使其能够掌握复杂的语言模式,并生成与人类文本难以区分的连贯内容。
LLM 是生成式人工智能(Generative AI)领域的重要分支。它们通过学习大量数据,获得了对语法、语义、事实和上下文的深刻理解。这使得一个单一模型能够适应和执行多种多样的自然语言任务,而不需要为每项任务重新训练模型。
所有现代 LLM 都依赖于 Transformer 架构,其核心是**自注意力机制(Self-Attention)**。该机制允许模型在处理文本序列时,权衡不同词语的重要性,从而理解句子中词语之间的依赖关系。Transformer 结构通常包含编码器(Encoder)和解码器(Decoder),但许多著名的 LLM,例如 GPT 系列,主要侧重于解码器部分,使其更擅长于文本生成任务。
LLM 的训练过程分为两个主要阶段:**预训练(Pre-training)**和**微调(Fine-tuning)**。在预训练阶段,模型通过预测文本中的下一个词或填补缺失的词语,从数十亿的网页、书籍和文章中学习通用知识。随后的微调阶段,模型通过少量高质量、有标签的数据或人类反馈(如 RLHF),被调整以更好地遵循指令、减少“幻觉”和提高安全性。