标签题目
Transformer相关面试题
注意力机制中为什么要计算 Q 和 K 的相似度?
注意力机制计算 Q 和 K 的相似度,是为了让每个位置根据当前查询目标,从所有候选位置中动态分配信息权重。Q 表示当前位置想找什么,K 表示每个位置能被什么条件匹配,相似度越高,对应 V 的信息越应该被聚合进当前表示。
Transformer 中 Q、K、V 分别表示什么?
Transformer 中的 Q、K、V 分别是 Query、Key、Value,是注意力机制对输入向量做三组线性变换得到的表示。Q 用来发起查询,K 用来被匹配,Q 与 K 的相似度决定关注权重,V 承载最终被加权汇聚的信息。