公司岗位题库

京东 算法面经

17 道题 28 个标签 18 条出现记录

算法工程师相关题目

LoRA 微调通常插入哪些层,epoch、learning_rate 等常用训练参数如何设置?

这题考 LoRA 微调的工程落点:适配器插到哪些线性层,常用 rank、alpha、dropout、epoch、learning_rate、batch 和 scheduler 如何取舍。好的回答不能只说冻结原模型、训练低秩矩阵,而要能根据任务类型、数据规模、显存预算和过拟合风险解释从 q/v 到 attention+MLP 的 target module 选择,以及为什么 LoRA 学习率通常比全参微调更高但仍需验证集约束。

训练中把 loss 除以 10 和把学习率除以 10 有什么区别?

这题考优化器细节:把 loss 除以 10 会先把反向传播得到的梯度缩小 10 倍;把学习率除以 10 是在优化器更新参数时缩小 step size。二者在最简单的无动量 SGD、无正则、无裁剪场景下近似等价,但在 Adam/AdamW、动量、weight decay、gradient clipping、混合精度、多任务 loss、分布式梯度累积等真实训练中会产生明显差异。