普通模型的query fine tuning和SFT有什么区别？｜百度算法面经解析

60 秒回答模板

我会先说明语义边界：普通模型的 query fine tuning 一般是把 query 作为输入，针对分类、检索、排序或匹配等下游目标做监督微调；SFT 是对生成式大模型做监督微调，数据通常是 instruction-response 或 conversation-response，损失主要落在回答 token 上。核心区别是前者偏任务头或表示学习，后者偏生成行为和指令遵循。

考点 对象不同

难度 算法岗真实面经题

回答目标 讲清原理、边界和追问

深入解析

输入输出

query fine tuning 中，query 往往是普通模型的输入条件，模型输出可能是类别、相关性分数、向量表示或排序结果，不一定生成自然语言长答案。SFT 中，query 或 instruction 只是上下文的一部分，模型要自回归地产生完整回答，输出空间是词表上的 token 序列。

训练目标

普通模型下游微调通常围绕明确任务损失，例如分类交叉熵、pairwise/listwise 排序损失、对比学习损失或回归损失。SFT 的典型目标是 next-token 交叉熵，常常只对答案部分计算损失，让模型学习在给定提示和上下文后逐 token 生成标准回复。

数据结构

query fine tuning 的样本可以是 query-label、query-doc-label、query-candidate-score 等结构，监督信号比较贴近单一任务。SFT 样本更强调指令、约束、上下文、回答和多轮对话格式，监督信号不仅包含答案内容，也包含回答组织方式、语气和遵循约束的行为模式。

模型能力

普通模型微调经常是在已有编码器、双塔、交叉编码器或小型生成模型上强化某个垂直能力，泛化范围受任务定义影响较大。SFT 面向大语言模型，目标是让基础模型已有的语言、推理和知识能力以更可用的交互形式释放出来，而不是只训练一个窄任务头。

评估差异

query fine tuning 常用准确率、AUC、NDCG、召回率、MRR、相关性等任务指标评估。SFT 除了自动指标，还需要看指令遵循、事实性、格式稳定性、安全边界和人工偏好。因为 SFT 输出是开放文本，评估难度通常高于封闭标签任务。

易错点

没有先限定 query fine tuning 的含义，导致回答概念漂移。
把 SFT 说成只是在 query 上继续训练，忽略答案 token 的生成式监督。
只比较模型大小，不比较数据结构、损失函数和输出形式。
认为 SFT 一定会注入新知识，忽略它更常用于行为和格式对齐。

面试官追问

SFT 训练时 query 部分也计算 loss 吗？

多数指令微调设置会把 prompt、query、system message 等输入部分 mask 掉，只在目标回答 token 上计算 loss，这样模型主要学习如何回答，而不是学习复述输入。

普通模型 fine tuning 能不能也生成文本？

可以，如果普通模型本身是生成式架构，就可以做序列到序列训练。但面试里比较的重点通常不是能否生成，而是训练目标是否是大模型指令响应式的 SFT。

为什么不能简单把 SFT 理解成 query fine tuning 的放大版？

因为 SFT 不只是输入 query 后拟合标签，它还要学习多轮上下文、回答结构、约束遵循和开放生成分布，训练和评估的复杂度都更高。