LoRA 微调通常插入哪些层，epoch、learning_rate 等常用训练参数如何设置？｜京东算法面经解析

60 秒回答模板

我会先说明 LoRA 的插入对象通常是 Transformer 里的线性投影矩阵：冻结原权重 W，只训练一个低秩增量 Delta W=BA，并在前向里把 W x 加上缩放后的 BA x。最常见的起点是 attention 的 q_proj 和 v_proj，因为它们直接影响 token 如何读上下文和输出信息，参数少、稳定、收益明显；如果任务更复杂或数据足够，可以扩展到 k_proj、o_proj，甚至 MLP 的 gate_proj、up_proj、down_proj，让模型不仅调整注意力路由，也调整中间特征变换。embedding 和 lm_head 一般不作为默认目标，除非有新词表、领域术语映射、输出分布迁移很强或确实通过实验发现需要。超参上，rank 决定增量容量，常从 8、16、32 这类小中等值做网格；alpha 决定 LoRA 分支缩放，常和 rank 同量级或按 2 倍左右调节；dropout 常在 0 到 0.1 附近，用来防止小数据过拟合。LoRA/QLoRA 的 learning_rate 往往可以高于全参微调，常见从 1e-5 到 3e-4 量级试起，指令 SFT 常见会在 1e-4 或 2e-4 附近做 baseline，但具体要看模型大小、数据质量、batch token 数和是否量化。epoch 通常不宜盲目很大，高质量指令数据可能 1 到 3 轮就够，领域小数据可尝试更多但必须看验证集、通用能力和过拟合 badcase。实际回答要强调实验闭环：先用 q/v + 小 rank 建立基线，再按验证集错误类型逐步加 target layers 或 rank，配合 warmup、cosine/linear scheduler、gradient clipping、bf16、有效 batch size 和早停，而不是一次性把所有层都打开。

考点 target module 决定可改能力

难度 真实面经题

回答目标让候选人能给出 LoRA 微调的可执行配置思路：从 q/v 低成本基线开始，根据任务逐步扩展到 attention 和 MLP，理解 rank/alpha/dropout/LR/epoch 的作用，并用验证集和 ablation 决定最终超参，而不是背固定模板。

深入解析

LoRA 主要插在线性投影层

Transformer 中 attention projection、MLP projection、embedding 和输出头本质上都是矩阵乘法，LoRA 最自然的插入点是这些线性层。它冻结原始权重，只训练低秩增量，因此 target module 的选择直接决定微调能改动模型的哪些能力。

q_proj 和 v_proj 是常见起点

很多任务会先只在 attention 的 query 和 value 投影上加 LoRA。q_proj 影响模型关注什么上下文，v_proj 影响被读出的信息内容；这组目标层参数少、训练稳定、显存友好，适合作为低成本 baseline。

复杂任务可扩展到完整 attention

当任务需要更强的注意力模式迁移，或 q/v 的效果不足时，可以加入 k_proj 和 o_proj。k_proj 会影响 key 空间匹配，o_proj 会影响 attention 输出回写到 hidden state 的方式。代价是可训练参数、显存和过拟合风险都会增加。

MLP 层适合能力迁移更强的场景

gate_proj、up_proj、down_proj 控制 FFN 的非线性特征变换。把 LoRA 加到 MLP 层通常会提升容量，适合风格、领域模式、复杂推理格式或任务分布变化较大的 SFT；但小数据上也更容易记忆训练集。

embedding 和 lm_head 不宜默认打开

embedding 或 lm_head 会影响词表表示和输出分布，参数规模和副作用都更大。只有在新增特殊 token、领域术语密集、输出格式分布变化明显，或验证显示瓶颈在词表/输出层时，才考虑训练它们或使用更小心的学习率。

rank、alpha 和 dropout 控制容量与稳定性

rank 越大，LoRA 增量表达能力越强，但参数、显存和过拟合风险也更高。alpha 是缩放因子，决定低秩分支对原模型的影响强度；dropout 用于小数据正则化。常见做法是从 r=8/16/32、alpha 与 rank 同量级或略高、dropout 0 到 0.1 做小规模搜索。

学习率通常高于全参但不能盲目大

LoRA 只训练少量新参数，常能承受比全参 SFT 更高的 learning_rate，例如从 1e-5 到 3e-4 量级做实验。但模型越小、数据越少、目标层越多、rank 越大，越需要降低学习率并配合 warmup、scheduler 和 gradient clipping。

epoch 要由数据质量和验证集决定

高质量、多样化指令数据通常 1 到 3 个 epoch 就能看到主要收益；小规模领域数据可能需要更多轮，但过拟合、遗忘和格式模板记忆会更明显。应使用独立验证集、通用能力探针和任务 badcase 决定早停，而不是固定背一个 epoch 数。

易错点

只背 LoRA 低秩分解公式，不说明适配器具体插入哪些 Transformer 层。
一上来把所有 attention、MLP、embedding、lm_head 全打开，没有建立轻量 baseline 和 ablation。
认为 q_proj/v_proj 永远最优，忽略任务复杂度和领域迁移可能需要更大 target module 范围。
rank 盲目越大越好，不考虑数据量、显存、过拟合和推理合并成本。
alpha 随便设，无法解释它对 LoRA 分支缩放和训练稳定性的影响。
把全参 SFT 的学习率经验照搬到 LoRA，或反过来把 LoRA LR 调得过大但不看验证集。
固定说 epoch 必须某个数，不根据数据质量、样本重复率、验证指标和遗忘风险早停。
只看训练 loss 下降，不看真实任务指标、格式遵循、通用能力和过拟合 badcase。

面试官追问

只训练 q_proj 和 v_proj 一定够吗？

不一定。q/v 是低成本强基线，适合先试；如果任务需要更强的表达迁移、复杂格式遵循或领域推理，加入 k/o 或 MLP 层可能更好。是否扩展要看验证集和 badcase，而不是固定规则。

rank 和 alpha 怎么配？

rank 决定低秩增量的容量，alpha 决定增量缩放强度。常见起点是 alpha 与 rank 同量级或略高，例如 r=8/16/32 配相近或 2 倍的 alpha，然后看训练稳定性、验证指标和过拟合情况调节。

LoRA 的 learning_rate 为什么可以比全参 SFT 大？

因为原模型大部分参数被冻结，只更新少量新参数，破坏原有能力的风险相对小。但这不代表越大越好：目标层越多、rank 越大、数据越少时，过大 LR 仍会造成格式崩坏、过拟合或 loss 抖动。

训练多少 epoch 合适？

高质量指令 SFT 常从 1 到 3 轮试起；小数据领域适配可能更多，但必须看验证集和通用能力。更可靠的做法是按 token 数、验证 loss、任务指标和人工 badcase 做 early stopping。

什么时候需要训练 embedding 或 lm_head？

当新增特殊 token、领域术语表示差、输出格式或词分布迁移很强时可以考虑。但这类层影响范围大，通常需要更小学习率、更严格验证，或者只针对新增 token 做局部训练。