已解析题目
算法工程师相关题目
Transformer 的主要结构和流程是什么?
Transformer 的主线是把序列输入转为 token embedding 和位置编码,经过多层 self-attention 与前馈网络建模上下文,最后输出上下文表示或逐 token 生成结果。
笔记里多个实体和情感词如何抽取实体-情感关系?
这题考面向真实文本的关系抽取方案,重点是先识别实体和情感词,再做候选配对、关系判断和冲突消解。
Wide&Deep 的原理是什么,为什么适合推荐系统?
Wide&Deep 将线性 wide 部分和深度 deep 部分联合训练。wide 侧擅长记住高频、明确的交叉规则,deep 侧通过 embedding 和多层网络学习稀疏特征的泛化表示,因此适合同时需要记忆历史共现和泛化到新组合的推荐系统。
粗排打分样本空间与精排样本空间不一致时,推荐模型如何训练和校正?
这道题考察多阶段推荐的分布偏移。粗排要面对召回池,精排只看到粗排之后的候选;如果用精排曝光样本直接训练粗排,模型会学到被上游筛选后的分布,导致召回池打分不准,需要从样本构造、校正、蒸馏和评估上处理。
给定包含目标实体的文本,如何把实体链接到知识库,主要难点是什么?
这题考实体链接到知识库的完整链路,回答要覆盖 mention 规范化、候选召回、上下文排序、歧义消解、NIL 处理、知识库更新和评估指标。
Q-former 和 Q-fusion 在多模态大模型中有什么区别,分别如何完成视觉-语言交互?
这题考多模态大模型里视觉特征如何和语言模型交互,回答重点是 Q-Former 的查询瓶颈、Q-fusion 的融合位置、跨注意力机制、训练信号和信息压缩取舍。
LLaVA 的整体结构如何把视觉编码器输出接入语言模型?
这题考 LLaVA 的视觉编码器、投影层、语言模型和指令微调流程,回答要讲清视觉特征如何变成 LLM 可消费的 token 表示。
BLIP 在图文理解和生成任务中如何组织视觉编码、文本编码和跨模态学习目标?
这题考 BLIP 作为图文预训练框架的整体理解:视觉编码器提取图像 token,文本模块在编码和解码模式间复用,并通过对比、匹配和语言建模目标同时支持理解与生成。