Encoder-Decoder 面试题解析

标签题目

Encoder-Decoder相关面试题

编码解码模型具体怎么实现的？

编码解码模型的实现核心是编码器把输入序列压成上下文表示，解码器基于上下文和已生成 token 逐步输出目标序列。不同实现可以是 RNN seq2seq、attention seq2seq 或 Transformer encoder-decoder。

字节跳动 / 算法

Encoder 和 Decoder 中的 Attention 有什么区别？

Encoder 和 Decoder 中 Attention 的核心区别在于可见信息、mask 约束和信息来源不同：Encoder 做双向理解，Decoder 做自回归生成并可能交叉关注 Encoder 输出。

同公司岗位有 2 条面经记录

Encoder-Decoder 注意力机制 Transformer

网易 / 算法

教育自动批改纠错任务如何设计 seq2seq 方案，并在最少人力下构造正负样本？

这道题考察教育批改纠错任务如何从“文本生成”落到可训练、可评估的纠错系统。回答要把 seq2seq 的输入输出、正负样本来源、低人力标注策略、过度纠错控制和机器翻译差异讲成一个闭环。

文本分类 Encoder-Decoder 模型训练模型评估

字节跳动 / 算法

对话摘要生成任务如何设计评估指标，并处理长度控制、角色呼应和数据增强？

这题考对话摘要生成的评估和训练细节，答案要同时覆盖内容覆盖、事实一致、角色归因、长度控制、ROUGE 局限和数据增强风险。

大语言模型模型评估模型训练文本分类 Encoder-Decoder

字节跳动 / 算法

如何用代码实现 Multi-Head Cross-Attention，Q/K/V 的输入维度如何对齐？

这题考手写 Multi-Head Cross-Attention 的维度理解和实现顺序，回答重点是 Q 来自目标序列，K/V 来自条件序列，以及多头拆分、mask 和输出合并。

注意力机制 Transformer Encoder-Decoder 手写题多模态学习

阿里巴巴 / 算法

Stable Diffusion 为什么使用 VAE 的 latent space，而不是直接在像素空间做扩散生成？

这题考 Stable Diffusion 的 latent diffusion 设计取舍：VAE 把高维像素压到较低维潜空间，让扩散模型更省算力，同时保留足够语义和空间结构，但会引入重建损失、细节上限和 latent 分布约束。

计算机视觉 Encoder-Decoder 神经网络模型评估大语言模型模型训练

华为 / 算法

常见预训练模型可以如何分类？它们在架构、训练目标和适用任务上有什么差别？

常见预训练模型可以按架构分为 encoder-only、decoder-only、encoder-decoder，以及对比学习或多模态模型。核心差别来自信息流方向、训练目标和下游任务形态：BERT 类 encoder 更适合理解、分类、抽取；GPT 类 decoder 更适合生成和对话；T5/BART 类 encoder-decoder 更适合输入到输出的转换；CLIP 等对比学习模型更适合检索、匹配和跨模态对齐。

模型训练大语言模型 Transformer Encoder-Decoder