标签题目
Encoder-Decoder相关面试题
编码解码模型具体怎么实现的?
编码解码模型的实现核心是编码器把输入序列压成上下文表示,解码器基于上下文和已生成 token 逐步输出目标序列。不同实现可以是 RNN seq2seq、attention seq2seq 或 Transformer encoder-decoder。
Encoder 和 Decoder 中的 Attention 有什么区别?
Encoder 和 Decoder 中 Attention 的核心区别在于可见信息、mask 约束和信息来源不同:Encoder 做双向理解,Decoder 做自回归生成并可能交叉关注 Encoder 输出。
同公司岗位有 2 条面经记录
教育自动批改纠错任务如何设计 seq2seq 方案,并在最少人力下构造正负样本?
这道题考察教育批改纠错任务如何从“文本生成”落到可训练、可评估的纠错系统。回答要把 seq2seq 的输入输出、正负样本来源、低人力标注策略、过度纠错控制和机器翻译差异讲成一个闭环。
对话摘要生成任务如何设计评估指标,并处理长度控制、角色呼应和数据增强?
这题考对话摘要生成的评估和训练细节,答案要同时覆盖内容覆盖、事实一致、角色归因、长度控制、ROUGE 局限和数据增强风险。
如何用代码实现 Multi-Head Cross-Attention,Q/K/V 的输入维度如何对齐?
这题考手写 Multi-Head Cross-Attention 的维度理解和实现顺序,回答重点是 Q 来自目标序列,K/V 来自条件序列,以及多头拆分、mask 和输出合并。
Stable Diffusion 为什么使用 VAE 的 latent space,而不是直接在像素空间做扩散生成?
这题考 Stable Diffusion 的 latent diffusion 设计取舍:VAE 把高维像素压到较低维潜空间,让扩散模型更省算力,同时保留足够语义和空间结构,但会引入重建损失、细节上限和 latent 分布约束。
常见预训练模型可以如何分类?它们在架构、训练目标和适用任务上有什么差别?
常见预训练模型可以按架构分为 encoder-only、decoder-only、encoder-decoder,以及对比学习或多模态模型。核心差别来自信息流方向、训练目标和下游任务形态:BERT 类 encoder 更适合理解、分类、抽取;GPT 类 decoder 更适合生成和对话;T5/BART 类 encoder-decoder 更适合输入到输出的转换;CLIP 等对比学习模型更适合检索、匹配和跨模态对齐。