真实面经题目 · 原创解析

普通模型的query fine tuning和SFT有什么区别?

如果这里的 query fine tuning 指普通模型围绕查询输入做下游任务微调,它和大模型 SFT 的主要区别在于数据形态、优化目标和输出形式。前者通常学习 query 到标签、分数、向量或候选排序的任务映射;SFT 则训练自回归大模型在给定指令后生成期望回答。

出现于:百度 · 算法

60 秒回答模板

我会先说明语义边界:普通模型的 query fine tuning 一般是把 query 作为输入,针对分类、检索、排序或匹配等下游目标做监督微调;SFT 是对生成式大模型做监督微调,数据通常是 instruction-response 或 conversation-response,损失主要落在回答 token 上。核心区别是前者偏任务头或表示学习,后者偏生成行为和指令遵循。

考点 对象不同
难度 算法岗真实面经题
回答目标 讲清原理、边界和追问

深入解析

01

输入输出

query fine tuning 中,query 往往是普通模型的输入条件,模型输出可能是类别、相关性分数、向量表示或排序结果,不一定生成自然语言长答案。SFT 中,query 或 instruction 只是上下文的一部分,模型要自回归地产生完整回答,输出空间是词表上的 token 序列。

02

训练目标

普通模型下游微调通常围绕明确任务损失,例如分类交叉熵、pairwise/listwise 排序损失、对比学习损失或回归损失。SFT 的典型目标是 next-token 交叉熵,常常只对答案部分计算损失,让模型学习在给定提示和上下文后逐 token 生成标准回复。

03

数据结构

query fine tuning 的样本可以是 query-label、query-doc-label、query-candidate-score 等结构,监督信号比较贴近单一任务。SFT 样本更强调指令、约束、上下文、回答和多轮对话格式,监督信号不仅包含答案内容,也包含回答组织方式、语气和遵循约束的行为模式。

04

模型能力

普通模型微调经常是在已有编码器、双塔、交叉编码器或小型生成模型上强化某个垂直能力,泛化范围受任务定义影响较大。SFT 面向大语言模型,目标是让基础模型已有的语言、推理和知识能力以更可用的交互形式释放出来,而不是只训练一个窄任务头。

05

评估差异

query fine tuning 常用准确率、AUC、NDCG、召回率、MRR、相关性等任务指标评估。SFT 除了自动指标,还需要看指令遵循、事实性、格式稳定性、安全边界和人工偏好。因为 SFT 输出是开放文本,评估难度通常高于封闭标签任务。

易错点

  • 没有先限定 query fine tuning 的含义,导致回答概念漂移。
  • 把 SFT 说成只是在 query 上继续训练,忽略答案 token 的生成式监督。
  • 只比较模型大小,不比较数据结构、损失函数和输出形式。
  • 认为 SFT 一定会注入新知识,忽略它更常用于行为和格式对齐。

面试官追问

SFT 训练时 query 部分也计算 loss 吗?

多数指令微调设置会把 prompt、query、system message 等输入部分 mask 掉,只在目标回答 token 上计算 loss,这样模型主要学习如何回答,而不是学习复述输入。

普通模型 fine tuning 能不能也生成文本?

可以,如果普通模型本身是生成式架构,就可以做序列到序列训练。但面试里比较的重点通常不是能否生成,而是训练目标是否是大模型指令响应式的 SFT。

为什么不能简单把 SFT 理解成 query fine tuning 的放大版?

因为 SFT 不只是输入 query 后拟合标签,它还要学习多轮上下文、回答结构、约束遵循和开放生成分布,训练和评估的复杂度都更高。