大模型微调方法有哪些？｜高频面试题解析

60 秒回答模板

我会先把大模型微调分成两类维度：一类是按目标划分，例如继续预训练补领域知识，SFT 学会按指令输出，RLHF 或 DPO 做偏好对齐；另一类是按参数更新方式划分，例如全参数微调、LoRA/QLoRA、Adapter、Prefix/Prompt Tuning 等。实际选择时要看数据规模、算力、是否需要保留通用能力、部署成本和可控性。

考点 两条分类线

难度 算法岗真实面经题

回答目标 讲清原理、边界和追问

深入解析

目标维度

从训练目标看，微调不是单一技术。继续预训练更偏向让模型吸收领域语料的语言分布和知识；SFT 使用指令、问题、答案或多轮对话样本，让模型学习任务格式和回答风格；偏好对齐则通过人类偏好或构造偏好对，优化模型在有多个可行答案时的选择倾向。

参数维度

从参数更新方式看，全参数微调会更新模型大部分或全部权重，表达能力强，但显存、训练稳定性和灾难性遗忘风险更高。参数高效微调只引入或更新少量参数，例如 LoRA、Adapter、Prefix Tuning、Prompt Tuning，适合多任务、多租户和资源受限场景。

典型方法

LoRA 通过低秩矩阵近似权重增量，训练时冻结原模型，推理时可以合并权重；QLoRA 在量化基础上做低秩微调，进一步降低显存。Adapter 在层间插入小模块，Prefix 或 Prompt Tuning 学习连续提示向量，适合轻量控制，但复杂任务上表达上限可能不如 LoRA 或全参微调。

对齐阶段

SFT 通常让模型先学会“如何按要求回答”，但不一定能保证答案更符合人类偏好。RLHF 常见流程是训练奖励模型再用强化学习优化策略，DPO 等方法则直接基于偏好对优化策略差异，工程链路更短。它们的核心都不是补知识，而是改变模型输出选择。

选择原则

如果目标是注入大量领域知识，通常需要继续预训练或检索增强配合；如果目标是固定任务格式或问答风格，SFT 更直接；如果目标是减少有害、啰嗦或不符合偏好的回答，需要偏好对齐。数据质量往往比方法名更重要，低质量样本会把模型稳定地微调到错误行为上。

易错点

把所有微调都等同于 SFT，忽略继续预训练、偏好对齐和参数高效微调。
认为 LoRA 一定比全参数微调效果好，忽略任务复杂度、数据量和可训练容量。
把偏好对齐说成补充事实知识，混淆了行为选择和知识注入。
只背方法名，不说明数据形式、损失函数和工程取舍。

面试官追问

LoRA 和全参数微调的核心区别是什么？

全参数微调直接更新原模型权重，容量大但成本高；LoRA 冻结原权重，只训练低秩增量矩阵，成本更低，也更容易为多个任务切换适配参数。

SFT 和继续预训练有什么区别？

继续预训练通常使用大规模无标注或弱结构领域文本做 next-token 训练，偏知识和分布适配；SFT 使用输入输出样本，偏任务格式、指令遵循和回答行为学习。

DPO 和 RLHF 的关系是什么？

二者都用于偏好对齐。RLHF 通常显式训练奖励模型并用强化学习优化，DPO 则直接利用偏好对构造损失，优化被偏好答案相对未被偏好答案的概率差。