真实面经题目 · 原创解析
LoRA alpha 过强或过弱会带来什么影响,增量训练出现灾难性遗忘时如何排查和缓解?
这题考的是候选人是否理解 LoRA 增量缩放和遗忘之间的关系,并能从数据分布、训练策略、正则约束和回归评测上解决增量训练稳定性问题。
真实面经题目 · 原创解析
这题考的是候选人是否理解 LoRA 增量缩放和遗忘之间的关系,并能从数据分布、训练策略、正则约束和回归评测上解决增量训练稳定性问题。
LoRA alpha 可以理解为控制 adapter 增量影响力的缩放因子,通常和 rank 一起决定 LoRA 更新相对基座权重的强弱。alpha 过弱时,adapter 对输出的影响太小,表现为新任务学不动、收敛慢、指标提升有限;alpha 过强时,adapter 可能覆盖基座原有行为,出现风格漂移、指令遵循下降、旧任务回退,严重时会加剧灾难性遗忘。增量训练遇到遗忘,我会先确认遗忘范围:是旧任务指标下降、通用能力下降,还是只在某类格式或领域上下降。然后看三件事。第一是数据分布,新数据是否过窄、比例过高、和旧能力冲突,是否缺少 rehearsal 或保留集。第二是训练配置,学习率、alpha、rank、训练步数是否让 adapter 更新过猛,有没有早停和梯度裁剪。第三是约束和评测,是否使用旧任务混合、KL 或 logits distillation、L2/SP 正则、adapter 隔离或多 adapter 路由来保护旧能力。缓解上,我会降低 alpha 或学习率,加入代表性旧数据和困难负例,控制新旧样本配比,使用验证集早停,并建立新任务、旧任务、通用能力三类回归门禁,保证不是用旧能力换新任务指标。
LoRA 通常把低秩矩阵产生的增量加到原权重路径上,alpha 与 rank 共同决定增量缩放。直观上,alpha 越大,adapter 对模型输出的影响越强;alpha 越小,模型更接近原基座。它不是越大越好,而是在新任务学习能力和保留基座能力之间做权衡。
alpha 过弱时,新领域、新格式或新任务很难学进去,表现为指标提升小、需要更多步数、输出仍像原模型。alpha 过强时,短期训练集指标可能上升,但会出现通用问答变差、旧任务回退、输出风格变窄、拒答边界变差、格式或多轮能力漂移,说明增量更新压过了基座知识。
不能只说模型忘了。要拆成旧任务遗忘、通用能力遗忘、格式遵循遗忘、安全边界遗忘或跨模态对齐遗忘,并用固定回归集定位是所有能力下降还是某个数据域下降。若只有新旧任务冲突样本下降,重点在数据和偏好冲突;若全面下降,更多要看 alpha、学习率和训练步数。
增量训练只喂新任务数据,很容易让 adapter 专门服务新分布。常见做法是在训练中混入代表性的旧任务样本、通用指令样本、格式样本和安全样本,并控制采样比例。旧数据不需要无限大,但要覆盖关键能力边界和历史高频失败场景。
除了混数据,还可以用参考模型约束当前模型不要偏离太多,例如对关键样本做 KL 约束、logits distillation,或对 adapter 参数加 L2/SP 正则。核心思想是允许新任务方向的必要变化,但惩罚无关能力上的大幅漂移。
缓解遗忘通常要组合调低学习率、降低 alpha、减少训练步数、增加 warmup、使用早停、减小目标模块范围,或在不同任务上使用独立 adapter。若新任务和旧任务差异很大,多 adapter、adapter fusion 或按场景路由可能比反复覆盖同一个 adapter 更稳。
增量训练不是只追求新任务最高分,而是看新任务提升和旧任务损失的 Pareto 边界。需要同时记录新任务指标、旧任务指标、通用能力、安全、格式和成本。一个可接受 checkpoint 应该在新任务收益明显的同时,把旧能力下降控制在事先定义的阈值内。
每次增量训练都应保存数据版本、采样配比、alpha/rank/学习率、目标模块、checkpoint 和评测报告。线上发现旧能力回退时,可以通过 adapter 回滚、降低 adapter 权重、切换场景路由或禁用新 adapter 快速止损。没有版本化和门禁,遗忘问题很难复盘。
rank 更偏向 adapter 的表达容量,rank 越高可学习的低秩空间越大;alpha 更偏向增量缩放,决定学到的增量对原模型输出影响多强。容量不够和缩放过强是两类问题。
即使基座权重冻结,推理时输出仍会叠加 adapter 增量。如果 adapter 在窄分布上强烈改变中间表示或注意力投影,最终行为仍会偏离基座,表现为旧能力被覆盖。
没有固定比例,通常从新旧任务的重要性、分布差异和旧能力容忍下降幅度决定。实践上要扫几个采样比例,并用新任务指标和旧任务回归指标选择 Pareto 最优点。
先确认冲突是否真实,例如答案风格、安全策略或格式要求不同。若真实冲突很强,不应强行一个 adapter 解决,可以按场景路由不同 adapter,或在 prompt/任务分类后选择不同策略。
做消融:固定数据只调 alpha 和学习率,看旧能力是否随缩放增强而系统性下降;再固定超参改变旧数据混合比例。如果混入旧数据能明显恢复,数据分布是主因;如果降低 alpha 就恢复,缩放过强更关键。