真实面经题目 · 原创解析

大模型微调方法有哪些?

大模型微调可以从“训练目标”和“参数更新方式”两条线回答:训练目标包括继续预训练、监督微调、偏好对齐和任务适配;参数更新方式包括全参数微调和参数高效微调。面试中要说清每类方法解决什么问题、用什么数据、优化什么损失,以及成本和风险。

60 秒回答模板

我会先把大模型微调分成两类维度:一类是按目标划分,例如继续预训练补领域知识,SFT 学会按指令输出,RLHF 或 DPO 做偏好对齐;另一类是按参数更新方式划分,例如全参数微调、LoRA/QLoRA、Adapter、Prefix/Prompt Tuning 等。实际选择时要看数据规模、算力、是否需要保留通用能力、部署成本和可控性。

考点 两条分类线
难度 算法岗真实面经题
回答目标 讲清原理、边界和追问

深入解析

01

目标维度

从训练目标看,微调不是单一技术。继续预训练更偏向让模型吸收领域语料的语言分布和知识;SFT 使用指令、问题、答案或多轮对话样本,让模型学习任务格式和回答风格;偏好对齐则通过人类偏好或构造偏好对,优化模型在有多个可行答案时的选择倾向。

02

参数维度

从参数更新方式看,全参数微调会更新模型大部分或全部权重,表达能力强,但显存、训练稳定性和灾难性遗忘风险更高。参数高效微调只引入或更新少量参数,例如 LoRA、Adapter、Prefix Tuning、Prompt Tuning,适合多任务、多租户和资源受限场景。

03

典型方法

LoRA 通过低秩矩阵近似权重增量,训练时冻结原模型,推理时可以合并权重;QLoRA 在量化基础上做低秩微调,进一步降低显存。Adapter 在层间插入小模块,Prefix 或 Prompt Tuning 学习连续提示向量,适合轻量控制,但复杂任务上表达上限可能不如 LoRA 或全参微调。

04

对齐阶段

SFT 通常让模型先学会“如何按要求回答”,但不一定能保证答案更符合人类偏好。RLHF 常见流程是训练奖励模型再用强化学习优化策略,DPO 等方法则直接基于偏好对优化策略差异,工程链路更短。它们的核心都不是补知识,而是改变模型输出选择。

05

选择原则

如果目标是注入大量领域知识,通常需要继续预训练或检索增强配合;如果目标是固定任务格式或问答风格,SFT 更直接;如果目标是减少有害、啰嗦或不符合偏好的回答,需要偏好对齐。数据质量往往比方法名更重要,低质量样本会把模型稳定地微调到错误行为上。

易错点

  • 把所有微调都等同于 SFT,忽略继续预训练、偏好对齐和参数高效微调。
  • 认为 LoRA 一定比全参数微调效果好,忽略任务复杂度、数据量和可训练容量。
  • 把偏好对齐说成补充事实知识,混淆了行为选择和知识注入。
  • 只背方法名,不说明数据形式、损失函数和工程取舍。

面试官追问

LoRA 和全参数微调的核心区别是什么?

全参数微调直接更新原模型权重,容量大但成本高;LoRA 冻结原权重,只训练低秩增量矩阵,成本更低,也更容易为多个任务切换适配参数。

SFT 和继续预训练有什么区别?

继续预训练通常使用大规模无标注或弱结构领域文本做 next-token 训练,偏知识和分布适配;SFT 使用输入输出样本,偏任务格式、指令遵循和回答行为学习。

DPO 和 RLHF 的关系是什么?

二者都用于偏好对齐。RLHF 通常显式训练奖励模型并用强化学习优化,DPO 则直接利用偏好对构造损失,优化被偏好答案相对未被偏好答案的概率差。