真实面经题目 · 原创解析

AI 产品选型时,如何判断用自研模型、开源模型还是第三方 API,并说明选择理由?

这题考 AI 产品经理是否能把模型来源选择讲成业务目标、效果验证、数据风险、成本延迟、可控性和 fallback 的综合决策,而不是按热度报模型名字。

出现于 2 个公司岗位 · 3 条面经记录

60 秒回答模板

我会先说明模型选型不是先问哪个模型最强,而是先定义产品任务和约束。第一步看业务目标:这个 AI 产品到底要解决问答、创作、客服、搜索、办公自动化还是垂直决策任务,成功指标是任务完成率、准确性、留存、成本还是响应速度。第二步建立三类路线对比:自研模型适合战略核心、高差异化、长期有数据和算法投入的场景;开源模型适合需要私有化、可微调、可控成本和可定制部署的场景;第三方 API 适合快速验证、高通用能力、团队希望先跑 MVP 或不想承担训练运维成本的场景。第三步要用同一套业务评测集验证,而不是看公开榜单,评测要覆盖真实用户任务、长尾问题、安全拒答、稳定性、中文或行业术语、工具调用和多轮上下文。第四步比较数据与合规:是否能把用户数据发给外部服务,是否需要私有部署,是否有审计、脱敏和数据留存要求。第五步看工程和经营约束,包括首 token 延迟、P95/P99、并发、可用性、单次调用成本、峰值成本、供应商锁定和版本可控性。最后给出路线结论和 fallback,比如先用 API 验证需求,沉淀评测集和 badcase;若核心场景稳定且隐私或成本压力变大,再切到开源私有化或自研能力;线上还要做模型路由、降级、灰度和人工兜底,保证选型不是一次性拍板,而是随产品阶段演进。

考点 目标锚点
难度 真实面经题
回答目标 让候选人能把模型来源选择讲成一套可落地的产品决策:先定任务和指标,再用评测集、数据风险、成本延迟、可控性和 fallback 选择阶段性路线。

深入解析

01

先把选型问题还原成产品目标

回答不能从模型名字开始,而要先定义产品任务、目标用户、使用频次和成功指标。客服问答更看重一次解决率、事实一致性和转人工成本;创作工具更看重可控性、风格稳定和编辑采纳率;企业知识助手更看重权限、引用来源和私有数据保护。只有先讲清业务目标,后面的自研、开源或 API 才有判断标准。

02

三类模型路线对应不同阶段和约束

自研模型的优势是长期可控、能力可沉淀、能围绕核心业务数据形成差异化,但投入高、周期长、需要稳定算法和算力团队。开源模型的优势是可私有化、可微调、可控部署和可解释成本结构,但需要团队承担评测、推理优化、版本管理和安全适配。第三方 API 的优势是启动快、通用能力强、维护负担低,适合 MVP 和能力验证,但会带来成本、数据外发、可用性、版本变更和供应商锁定问题。

03

评测集比排行榜更能支撑选择理由

产品经理说明选择理由时,不应该说某个模型在榜单上更高,而要说明它在本产品任务上的表现。评测集应来自真实用户场景和高价值任务,覆盖常见问题、长尾问题、多轮上下文、行业术语、工具调用、拒答边界、事实一致性和 badcase 回归。评测结果要能回答“这个模型是否让用户完成任务”,而不仅是“回答看起来聪明”。

04

数据、隐私和合规会直接改变路线

如果产品涉及企业内部文档、用户敏感信息、交易记录、医疗金融等高风险数据,就要评估数据是否允许外发、是否需要脱敏、是否需要私有化部署、日志如何留存、调用链路是否可审计。即便第三方 API 效果最好,也可能因为数据边界不能用于某些场景;反过来,如果只是公开内容创作或低风险探索,API 可能是更高效的起点。

05

成本、延迟和稳定性决定能否规模化

模型选型还要算经营账和体验账。成本上要看单次调用成本、token 消耗、并发峰值、缓存命中、是否需要多模型路由和人工审核成本;延迟上要看首 token、完整回答时间、P95/P99 和失败重试;稳定性上要看 SLA、限流、版本升级、模型漂移和故障兜底。一个离线效果更强的模型,如果线上太慢、太贵或不可控,也不一定适合当前产品阶段。

06

用演进路线和 fallback 收束答案

成熟回答应给出阶段性路线,而不是一次性选死。常见做法是先用第三方 API 或成熟开源模型快速验证需求,沉淀真实评测集、用户行为和 badcase;当核心场景稳定后,根据隐私、成本、差异化和可控性决定是否做开源私有化、微调或自研。线上要保留模型路由、灰度发布、降级模型、规则兜底、人工复核和回滚机制,避免单点模型故障影响产品。

易错点

  • 把选型答成模型排行榜,只说哪个模型参数大、榜单高,没有回到产品任务和业务指标。
  • 默认第三方 API 永远最快最好,忽略数据外发、合规审计、版本变更、限流和供应商锁定。
  • 默认开源模型一定更便宜,漏算推理资源、运维、评测、安全治理和模型工程成本。
  • 把自研说成高级选项,却没有说明长期数据、团队能力、算力投入和差异化收益是否支撑。
  • 只看离线回答质量,不看首 token 延迟、P95/P99、可用性、峰值成本和失败兜底。
  • 把选择理由说成百度内部模型路线或具体内部实践;来源只支持面试追问模型来源和选择理由。

面试官追问

如果第三方 API 效果最好,但成本也最高,你会怎么判断是否值得用?

先算单位价值而不是只看调用单价:它是否显著提升任务完成、转化、留存或人力替代效率。如果高价值场景收益覆盖成本,可以只给高价值用户或复杂请求使用;低价值、简单请求则用开源模型、缓存、模板或小模型路由,形成分层调用。

开源模型看起来便宜,为什么不一定是最优解?

开源模型免去部分模型授权或调用成本,但会产生推理资源、部署运维、评测、安全治理、版本升级和工程优化成本。如果团队缺少模型工程能力,或者业务还没验证,直接私有化可能比 API 更慢、更贵。

什么时候更应该考虑自研模型?

当 AI 能力是产品长期核心壁垒,场景有大量高质量专有数据,外部模型无法满足隐私、成本、稳定性或差异化要求,并且组织有长期算法、算力和工程投入能力时,自研才更有必要。

模型选型评测集应该怎么构造?

从真实用户任务抽样,按高频、长尾、困难、敏感、安全、失败样本分层;每条样本要有评分 Rubric,例如正确性、完整性、可执行性、引用支持、拒答合理性和用户体验。还要保留 holdout 和线上 badcase 回归,防止只优化固定题库。

如果线上模型突然不可用,产品层怎么兜底?

要提前设计降级策略:切换备用模型、返回检索结果或模板答案、限制高成本能力、提示稍后重试、转人工或保留用户输入异步处理。关键是把故障状态产品化,避免用户看到无解释的失败。