已解析题目
算法工程师相关题目
大模型里的temperature参数能控制复读、增强多样性,背后的原理是什么?
temperature 的本质是调节 softmax 分布的尖锐程度。温度低会放大高概率 token 的优势,使输出更确定、更保守,也更容易陷入高概率重复模式;温度高会拉平概率分布,提高熵和采样多样性,但过高会引入低质量 token,导致语义漂移或不稳定。
一个模型对prompt会生成多种回答,那么DPO的pair数据如何选取?
DPO 的 pair 数据不是简单地从同一个 prompt 的多个回答里任意两两组合,而是要构造“同一上下文下,偏好方向明确、质量差异可学习、噪声可控”的 chosen/rejected 对。核心目标是让模型学习相对偏好,同时避免把无意义差异、标注偏差或长度偏置放大。
在一个文档中,如何筛选出对一个综合场景大模型的微调数据?
从单个文档筛选综合场景大模型微调数据,关键是把原始内容变成高质量、多任务、可验证、去噪去重的指令样本。回答要覆盖场景定义、片段切分、样本构造、质量过滤、分布配比和评测闭环。
特征工程中,如何处理高维稀疏特征?
高维稀疏特征常见于推荐、广告和搜索场景,处理思路是降维、哈希、Embedding、正则化和特征筛选。回答要说明稀疏性带来的计算、存储、过拟合和泛化问题,再按模型类型给出处理方法。
特征工程中,为什么要对连续特征离散化?
连续特征离散化的价值在于增强非线性表达、降低异常值影响、提升可解释性,并让线性模型更容易学习分段关系。回答要同时说明适用场景、分箱方法、信息损失和线上一致性。
Uplift模型评估指标有哪些?
Uplift 模型评估的核心不是预测转化概率,而是衡量干预带来的增量效果。回答应覆盖 uplift curve、Qini curve、AUUC、Qini 系数、分组 uplift、Top-K 增益和 A/B 验证。
Uplift模型与传统分类模型的核心区别是什么?
Uplift 模型和传统分类模型的核心区别在目标变量:分类预测用户会不会转化,Uplift 预测干预会让转化概率提升多少。面试要讲清训练数据、标签构造、模型输出、评估指标和业务使用方式的差异。
XGBoost 为什么比传统 GBDT 快?
XGBoost 比传统 GBDT 快,主要来自工程和算法两方面优化:二阶近似、预排序或直方图、稀疏感知、列块并行、缓存友好访问、正则化剪枝和分布式训练。回答要避免只说“并行”,因为 boosting 的树轮次本身仍然有依赖。
如何用 XGBoost 处理不平衡分类问题?
用 XGBoost 处理不平衡分类,要同时调整训练目标、样本权重、采样策略、评估指标和阈值。面试回答不能只说调 `scale_pos_weight`,还要说明为什么 accuracy 不可靠,以及如何用 PR-AUC、Recall、F1 和业务成本验证。
因果推断中,混淆变量和中介变量有什么区别?
混淆变量和中介变量的区别在于因果位置不同:混淆变量同时影响处理和结果,需要控制;中介变量位于处理到结果的路径上,解释作用机制,是否控制取决于要估计总效应还是直接效应。
因果推断中,无法获取随机对照数据时如何估计因果效应?
没有随机对照数据时估计因果效应,需要用观察数据方法尽量构造可比组。常见思路包括倾向评分、匹配、分层、回归控制、DID、工具变量、断点回归、DML 和敏感性分析,但结论可信度依赖假设。
同题还出现在 1 个公司岗位
DragonNet如何保证输出的单调性和一致性?
DragonNet 这类因果效应模型要保证输出单调性和一致性,核心是把业务约束写进模型结构、输出变换、损失函数和训练校验中。回答时要区分预测值的数学约束、处理效应的一致性,以及线上分桶后的业务单调。
特征工程中,如何量化特征与目标变量的因果关系?
量化特征与目标变量的因果关系,不能只看相关系数或特征重要性,而要定义干预、构造对照、控制混淆并估计处理效应。常见方法包括 RCT、倾向评分、DID、IV、DML 和因果图分析。
重采样和欠采样会带来什么问题?
重采样和欠采样能缓解类别不平衡,但会改变训练分布,引入信息损失、过拟合、概率校准偏差和评估口径问题。
模型训练后需要保存哪些参数?
模型训练后的保存内容不只是权重文件,还包括结构、预处理、特征配置、归一化统计、优化器状态、版本信息和评估元数据。
订单粒度和人车粒度做派单召回有什么区别?
这题考派单系统的召回建模粒度:订单粒度从订单找候选司机,人车粒度从司机或人车状态找候选订单,差异体现在实时性、容量约束和全局匹配效率。
如何设计一个用车需求量预估算法?
用车需求量预估本质是时空序列预测:在给定城市区域和时间窗口内预测未来订单请求量。完整方案包括区域划分、时间粒度定义、历史订单和供需特征构建、天气节假日活动等外部特征引入、时序或时空模型训练,以及用 MAE、RMSE、MAPE 和调度收益做离线与在线评估。
风控评分卡建模从样本、分箱到评估监控的流程是什么?
这道题考察风控评分卡的端到端建模能力。回答要覆盖样本定义、时间切分、缺失和异常处理、分箱与 WOE、可解释模型、评分映射、AUC/KS/校准/PSI 评估,以及上线后的稳定性监控。
出行派单中,如何建模乘客对“顺路”的感知,并构造训练数据?
这道题考察出行派单里如何把“地理上看似顺路”转成“乘客主观感知也顺路”的可训练问题。高质量回答要讲清建模目标、弱监督标签、规则样本、特征设计、偏差处理、评估指标和线上体验护栏,而不是只回答最短路或 ETA。
出行派单中,给定乘客-司机候选边和权重,如何建模最大权匹配?
这道题考察出行派单如何从“乘客和司机两两配对”抽象成带约束的最大权二分图匹配。高质量回答要先定义候选边和权重,再讲一对一约束、不可匹配处理、算法选择、在线批量求解、业务护栏和效果评估,而不是只背匈牙利算法。
大模型微调后出现不遵循指令、复读和错误答案,如何定位原因并判断 CoT 是否有效?
这题考察大模型微调后行为退化的定位方法:要把不遵循指令、复读和错误答案拆成可复现的错误类型,分别从数据、训练配置、解码参数和评估切片定位,并用对照实验判断 CoT 是否真正改善推理或事实正确率。
Qwen2-VL 微调时应如何处理多模态数据、视觉 token、训练参数和评估?
这题考 Qwen2-VL 微调的多模态工程思路,答案应讲数据构造、视觉 token 预算、参数策略、loss masking、训练稳定性和评估闭环,不依赖具体版本细节。
多模态 Agentic RL 中用 VERL 做强化学习时,如何判断训练进度和收敛质量?
这题考多模态 Agentic RL 训练过程的可观测和收敛判断,回答要覆盖奖励曲线、成功率分层、KL/熵、rollout 质量、视觉 grounding 和回归评测。
同题还出现在 1 个公司岗位
医疗手写表格场景中,如何提升多模态模型对字段和值的识别准确度?
这题考医疗手写表格的多模态识别链路,重点是图像预处理、版面检测、字段和值配对、领域词表、人机校正和字段级评估。
多模态图像分支使用最大池化时,反向传播的梯度如何分配,工程实现需要注意哪些边界?
这题考最大池化的反向传播机制:输出梯度只回传给前向窗口中的最大值位置,非最大位置梯度为 0;工程上还要处理重叠窗口、并列最大值、padding、mask 记录和数值边界。
大模型训练中的 MFU 指标是什么,如何结合 Nsight/Profiler 定位吞吐瓶颈?
这题考训练性能分析能力:MFU 是把实际训练吞吐折算成模型有效 FLOPs 后,与 GPU 理论峰值比较的利用率指标;定位瓶颈要把 MFU、step time、kernel 时间线、通信、数据加载和显存行为一起看。
模型做 W4A8 量化或模型迁移后,如何验证激活值、梯度和权重是否正确,并用校准数据控制误差?
这题考量化和迁移后的数值正确性验证:要能从权重映射、激活分布、梯度流、逐层误差、校准集覆盖和端到端指标几层建立质量闭环,而不是只跑一遍精度评测。
FCOS 作为 anchor-free 目标检测算法,整体流程和正负样本分配如何设计?
这题考的是候选人是否真正理解 anchor-free 检测从“预设框匹配”切换到“特征图位置预测”的建模方式。好答案不能只说 FCOS 不用 anchor,而要讲清 backbone 与 FPN 生成多尺度特征、每个位置预测类别和到框四边距离、正负样本如何由位置落入目标中心区域和尺度范围决定、重叠目标如何消歧、centerness 如何压低低质量框,以及训练损失和推理 NMS 的完整闭环。边界是以公开 FCOS 机制为准,不把其它 anchor-free 方法的关键点检测或 Transformer 查询机制混进来。
大模型微调时,7B 和 70B 模型的学习率应如何设置,为什么模型规模会影响学习率选择?
大模型微调时,70B 通常要比 7B 使用更保守的学习率,因为大模型参数多、预训练能力强、对分布扰动更敏感,过大学习率更容易导致灾难性遗忘、loss 震荡和能力退化。但这不是绝对规则,还要区分全参微调、LoRA、数据规模、batch size、warmup、scheduler 和任务差异。
DeepSeek-R1 的后训练流程如何从 SFT、RL 到可验证推理能力逐步构建?
这题考的是候选人是否能按公开技术报告复述 DeepSeek-R1 的后训练逻辑,而不是泛泛说“先 SFT 再 RL”。好答案要区分 DeepSeek-R1-Zero 和 DeepSeek-R1:前者直接从 base model 做大规模 RL,展示可验证推理奖励能诱导反思、验证和更长 CoT;后者用少量冷启动长 CoT 数据改善可读性和训练稳定性,再经过推理 RL、拒绝采样生成 SFT 数据、通用能力 SFT、全场景 RL,并把大模型推理模式蒸馏到小模型。边界是只描述公开论文/官方报告内容,不扩展到未公开训练细节或其它机构的具体做法。
同题还出现在 1 个公司岗位
大模型训练或微调时,batch size 过大或过小分别会带来哪些收敛、泛化、吞吐和显存问题?当有效 batch size 改变时,学习率是否需要结合 scaling rule、warmup 和梯度累积一起调整?
这道题考察大模型训练/微调中 batch size 与学习率、显存、吞吐、泛化和稳定性的联动。好的回答要区分 micro batch、global batch、梯度累积,并说明 scaling rule 只能作为起点,必须配合 warmup 和验证集监控。
Reward model如何训练?
Reward model 训练的核心是把人类偏好转成可学习的评分函数。常见做法是对同一 prompt 的多个回答做偏好标注,构造 chosen/rejected pair,用 pairwise ranking loss 训练模型给更优回答更高分。
同题还出现在 1 个公司岗位