已解析题目
算法工程师相关题目
ESMM模型里,CVR和CTR任务共享Embedding层,这个在代码层面具体是怎么实现的?
ESMM 中 CTR 和 CVR 任务共享 Embedding 的代码实现,本质是同一批稀疏特征经过同一组 Embedding layer 查表,得到共享底层表示,再分别进入 CTR tower 和 CVR tower。回答要讲清共享参数、前向路径、loss 设计和训练样本空间。
同题还出现在 1 个公司岗位
给定一个未排序数组,如何输出第K大的数字?
未排序数组找第 K 大,常见解法有排序、大小为 K 的小顶堆和 Quickselect。面试中最推荐先给出复杂度对比,再重点讲 Quickselect 的 partition 思路和边界处理。
数据预处理一般用 OpenCV 做什么?
OpenCV 在数据预处理中常用于图像读取、格式转换、尺寸调整、归一化、去噪、增强、几何变换、颜色空间处理和基础标注清洗。回答要把训练数据处理和上线推理一致性一起讲清楚。
Self-Attention 中为什么需要 Softmax?
Self-Attention 中 Softmax 的作用是把相似度分数转换成归一化注意力权重,让模型用概率分布对 value 做加权聚合。
Self-Attention 中为什么要做 QKV 线性变换?
QKV 线性变换让同一个输入表示分别投影到查询、键和值三个语义空间,使 Attention 能学习匹配关系和被聚合内容,而不是用原始 embedding 直接相乘。
遗传算法优化和梯度下降优化有什么区别?
遗传算法和梯度下降的区别在于优化信息、搜索方式和适用问题不同:前者是群体式全局启发搜索,后者依赖梯度做连续参数局部迭代。
LSTM 的输入门、遗忘门和输出门是如何工作的?
LSTM 用遗忘门、输入门和输出门控制细胞状态的保留、写入和暴露,从而缓解普通 RNN 的长期依赖和梯度衰减问题。
同题还出现在 1 个公司岗位
关键词不在库里但商品对应另一个关键词,怎么解决?
这是电商搜索中的 query 覆盖与语义召回问题。可通过同义词和别名词库、query rewrite、拼写纠错、类目和属性归一、向量召回、用户行为挖掘等方式,把未入库关键词映射到可召回商品的标准词或相关词,同时通过相关性排序和人工审核控制误召回。
为什么 XGB+LR 可以提高模型效果,XGB 在其中充当什么角色?
XGB+LR 中 XGB 通常充当自动特征组合和非线性分桶器,把样本映射到各棵树的叶子节点,再将叶子索引 one-hot 后交给 LR 学线性权重。它能把原始特征空间中的非线性关系转成稀疏组合特征,同时保留 LR 训练快、可校准、部署简单的优点。
Qwen-VL 如何压缩图片 token,多模态大模型中图像 token 和文本 token 的处理链路有什么差异?
这道题考察多模态大模型里视觉 token 的压缩和图文 token 进入 LLM 前的差异。回答要说清图片先变成连续视觉特征再压缩投影,文本则经过离散 tokenizer 直接得到词向量,两者在融合前的链路不同。
LoRA 微调能否注入领域知识,应该如何验证效果边界?
这题考 LoRA 微调能否注入领域知识及其边界。答案要区分格式/风格/任务适配与事实知识注入,并比较 LoRA、SFT、继续预训练和 RAG 的验证方法。
同公司岗位有 2 条面经记录
LoRA 微调通常插入哪些层,epoch、learning_rate 等常用训练参数如何设置?
这题考 LoRA 微调的工程落点:适配器插到哪些线性层,常用 rank、alpha、dropout、epoch、learning_rate、batch 和 scheduler 如何取舍。好的回答不能只说冻结原模型、训练低秩矩阵,而要能根据任务类型、数据规模、显存预算和过拟合风险解释从 q/v 到 attention+MLP 的 target module 选择,以及为什么 LoRA 学习率通常比全参微调更高但仍需验证集约束。
训练中把 loss 除以 10 和把学习率除以 10 有什么区别?
这题考优化器细节:把 loss 除以 10 会先把反向传播得到的梯度缩小 10 倍;把学习率除以 10 是在优化器更新参数时缩小 step size。二者在最简单的无动量 SGD、无正则、无裁剪场景下近似等价,但在 Adam/AdamW、动量、weight decay、gradient clipping、混合精度、多任务 loss、分布式梯度累积等真实训练中会产生明显差异。
大模型训练中的 3D 并行和 DeepSpeed 分别解决什么问题,如何组合使用?
这题考的是大模型训练系统的分解能力:3D 并行解决模型和计算如何切到多卡上,DeepSpeed 提供 ZeRO、混合精度、checkpoint、offload 和并行编排等工程能力,两者可以组合但不是同一个概念。
1x1 卷积核在 CNN 中有什么作用?
这道题考察 CNN 中 1x1 卷积的真实作用。它不是用来扩大空间感受野,而是在每个空间位置上做通道维度的线性组合,常用于通道融合、升降维、减少计算量、构造瓶颈层,以及在合适网络结构中增强表达效率。
超分辨率模型中,上采样层放在网络前面还是后面,各自有什么速度、显存和效果取舍?
这题考超分辨率网络中上采样位置的架构取舍。高质量回答要对比 SRCNN 式前置上采样和 FSRCNN/ESPCN 式后置上采样,讲清计算量、显存、速度、感受野、重建质量、尺度适配和棋盘伪影,并说明 sub-pixel、transpose convolution、resize-conv 等方案差异。
京东商品详情页“XXX 也买过”推荐模块如何设计,如何做候选召回、排序特征、冷启动和线上 CTR/CVR/GMV 评估?
这题考商品详情页 item-to-item 推荐模块设计。回答应围绕“也买过”的共购语义,讲清候选召回、排序特征、冷启动、去重多样性、业务约束,以及用 CTR、CVR、GMV、加购率和护栏指标做线上实验评估。