真实面经题目 · 原创解析

你会建立怎样的 AI 搜索效果评测体系?

AI 搜索效果评测体系要同时覆盖事实正确、意图满足、内容生态融合、答案可用性、用户满意和业务增长。它不能只看模型离线分数,也不能只看点击率,而要把离线评测、人工评审、在线实验、用户反馈和长期生态指标组合起来,形成从 Query 到答案、从答案到行动、从行动到生态反哺的闭环。

出现于:字节跳动 · 产品运营

60 秒回答模板

我会建立五层评测体系。第一层是基础质量:事实正确、时效性、无幻觉、引用证据可追溯、安全合规。第二层是意图满足:是否理解用户真实任务,是否主动补齐关键约束,是否给出可执行结果。第三层是内容生态:是否充分利用短视频、评论、达人、POI 和热点信号,是否让好内容获得合理曝光。第四层是用户行为:点击、追问、改写、收藏、分享、导航、交易、停留和负反馈,但要按 Query 类型分层解释。第五层是长期指标:复搜下降、搜索留存、内容消费质量、创作者激励和生态健康。方法上先构建代表性 Query 集和黄金答案,做离线回归;再用人工标注评估主观体验;最后通过 A/B 实验和后反馈验证真实收益。

考点 离线在线结合
难度 真实面经高频题
回答目标 讲清机制、边界和追问

深入解析

01

评测目标分层

AI 搜索不是单一模型能力,而是搜索、推荐、生成、内容理解和交互的组合系统。评测目标要覆盖能不能答对、有没有理解任务、是否可信、是否好用、是否让用户采取行动,以及是否促进内容生态。只看一个指标会把系统优化带偏。

02

离线质量评测

离线评测需要代表性 Query 集,覆盖事实问答、本地生活、消费决策、教程学习、娱乐探索和长尾问题。每条样本要有意图标签、期望答案要素、不可触碰错误、证据要求和时效要求。评测维度包括准确性、完整性、幻觉率、引用一致性、可执行性和表达质量。

03

人工体验评审

很多体验无法完全由自动指标判断,例如是否有趣、是否有平台特色、是否像真实生活建议、是否给了足够选择理由。人工评审要有明确 Rubric,并做多标注员一致性校验。对重点场景可以引入成对比较,让评审判断两个答案哪个更能解决用户任务。

04

在线行为验证

在线指标要按意图区分。事实型问题可以看短停留后的满意退出和低复搜;决策型问题看收藏、追问、导航、下单和方案采纳;探索型问题看内容消费深度和正向互动。点击率不是天然正向,负反馈、快速返回、反复改词和投诉都要纳入解释。

05

生态长期监控

AI 搜索会改变内容分发方式,必须评估它是否让优质内容被更好使用,还是只把流量集中给少数答案。长期要看创作者曝光结构、内容供给活跃度、低质搬运激励、用户搜索留存和满意度趋势。只有用户、内容和业务都受益,评测体系才完整。

易错点

  • 只用模型自动评分衡量搜索效果,没有真实用户行为和人工体验评审。
  • 只看点击率、停留时长等表层指标,忽略复搜、负反馈和任务完成。
  • 没有按意图和场景分桶,导致事实查询、决策查询和娱乐搜索被同一指标误判。
  • 忽略内容生态影响,只评估答案本身,不评估证据内容、创作者和供给质量。

面试官追问

离线评测集怎么构建?

从真实搜索日志抽样,按流量、场景、意图、风险和长尾程度分层,再加入人工构造的边界样本。每条样本标注用户意图、关键答案要素、事实来源、可接受答案范围和严重错误类型,版本迭代时持续回归。

人工评审如何避免主观性太强?

要把主观体验拆成可判断维度,例如准确、完整、具体、有用、有趣、可信、可执行,并提供正反例。每条样本由多人标注,计算一致性,对分歧样本复审沉淀规则。

点击率升高一定代表效果好吗?

不一定。点击率可能因为答案不完整,用户被迫点更多内容;也可能因为标题更刺激但结果不满意。要结合满意退出、复搜、负反馈、收藏、转化和长期留存一起判断。

如何评估 AI 对内容生态的影响?

可以看优质内容被引用和消费的比例、创作者曝光分布、新内容进入答案的速度、低质内容占比、搬运激励和用户对证据内容的互动。如果 AI 只抽取内容价值却不回流曝光,生态会不可持续。