AI 产品选型时，如何判断用自研模型、开源模型还是第三方 API，并说明选择理由？｜高频面试题解析

60 秒回答模板

我会先说明模型选型不是先问哪个模型最强，而是先定义产品任务和约束。第一步看业务目标：这个 AI 产品到底要解决问答、创作、客服、搜索、办公自动化还是垂直决策任务，成功指标是任务完成率、准确性、留存、成本还是响应速度。第二步建立三类路线对比：自研模型适合战略核心、高差异化、长期有数据和算法投入的场景；开源模型适合需要私有化、可微调、可控成本和可定制部署的场景；第三方 API 适合快速验证、高通用能力、团队希望先跑 MVP 或不想承担训练运维成本的场景。第三步要用同一套业务评测集验证，而不是看公开榜单，评测要覆盖真实用户任务、长尾问题、安全拒答、稳定性、中文或行业术语、工具调用和多轮上下文。第四步比较数据与合规：是否能把用户数据发给外部服务，是否需要私有部署，是否有审计、脱敏和数据留存要求。第五步看工程和经营约束，包括首 token 延迟、P95/P99、并发、可用性、单次调用成本、峰值成本、供应商锁定和版本可控性。最后给出路线结论和 fallback，比如先用 API 验证需求，沉淀评测集和 badcase；若核心场景稳定且隐私或成本压力变大，再切到开源私有化或自研能力；线上还要做模型路由、降级、灰度和人工兜底，保证选型不是一次性拍板，而是随产品阶段演进。

考点 目标锚点

难度 真实面经题

回答目标 让候选人能把模型来源选择讲成一套可落地的产品决策：先定任务和指标，再用评测集、数据风险、成本延迟、可控性和 fallback 选择阶段性路线。

深入解析

先把选型问题还原成产品目标

回答不能从模型名字开始，而要先定义产品任务、目标用户、使用频次和成功指标。客服问答更看重一次解决率、事实一致性和转人工成本；创作工具更看重可控性、风格稳定和编辑采纳率；企业知识助手更看重权限、引用来源和私有数据保护。只有先讲清业务目标，后面的自研、开源或 API 才有判断标准。

三类模型路线对应不同阶段和约束

自研模型的优势是长期可控、能力可沉淀、能围绕核心业务数据形成差异化，但投入高、周期长、需要稳定算法和算力团队。开源模型的优势是可私有化、可微调、可控部署和可解释成本结构，但需要团队承担评测、推理优化、版本管理和安全适配。第三方 API 的优势是启动快、通用能力强、维护负担低，适合 MVP 和能力验证，但会带来成本、数据外发、可用性、版本变更和供应商锁定问题。

评测集比排行榜更能支撑选择理由

产品经理说明选择理由时，不应该说某个模型在榜单上更高，而要说明它在本产品任务上的表现。评测集应来自真实用户场景和高价值任务，覆盖常见问题、长尾问题、多轮上下文、行业术语、工具调用、拒答边界、事实一致性和 badcase 回归。评测结果要能回答“这个模型是否让用户完成任务”，而不仅是“回答看起来聪明”。

数据、隐私和合规会直接改变路线

如果产品涉及企业内部文档、用户敏感信息、交易记录、医疗金融等高风险数据，就要评估数据是否允许外发、是否需要脱敏、是否需要私有化部署、日志如何留存、调用链路是否可审计。即便第三方 API 效果最好，也可能因为数据边界不能用于某些场景；反过来，如果只是公开内容创作或低风险探索，API 可能是更高效的起点。

成本、延迟和稳定性决定能否规模化

模型选型还要算经营账和体验账。成本上要看单次调用成本、token 消耗、并发峰值、缓存命中、是否需要多模型路由和人工审核成本；延迟上要看首 token、完整回答时间、P95/P99 和失败重试；稳定性上要看 SLA、限流、版本升级、模型漂移和故障兜底。一个离线效果更强的模型，如果线上太慢、太贵或不可控，也不一定适合当前产品阶段。

用演进路线和 fallback 收束答案

成熟回答应给出阶段性路线，而不是一次性选死。常见做法是先用第三方 API 或成熟开源模型快速验证需求，沉淀真实评测集、用户行为和 badcase；当核心场景稳定后，根据隐私、成本、差异化和可控性决定是否做开源私有化、微调或自研。线上要保留模型路由、灰度发布、降级模型、规则兜底、人工复核和回滚机制，避免单点模型故障影响产品。

易错点

把选型答成模型排行榜，只说哪个模型参数大、榜单高，没有回到产品任务和业务指标。
默认第三方 API 永远最快最好，忽略数据外发、合规审计、版本变更、限流和供应商锁定。
默认开源模型一定更便宜，漏算推理资源、运维、评测、安全治理和模型工程成本。
把自研说成高级选项，却没有说明长期数据、团队能力、算力投入和差异化收益是否支撑。
只看离线回答质量，不看首 token 延迟、P95/P99、可用性、峰值成本和失败兜底。
把选择理由说成百度内部模型路线或具体内部实践；来源只支持面试追问模型来源和选择理由。

面试官追问

如果第三方 API 效果最好，但成本也最高，你会怎么判断是否值得用？

先算单位价值而不是只看调用单价：它是否显著提升任务完成、转化、留存或人力替代效率。如果高价值场景收益覆盖成本，可以只给高价值用户或复杂请求使用；低价值、简单请求则用开源模型、缓存、模板或小模型路由，形成分层调用。

开源模型看起来便宜，为什么不一定是最优解？

开源模型免去部分模型授权或调用成本，但会产生推理资源、部署运维、评测、安全治理、版本升级和工程优化成本。如果团队缺少模型工程能力，或者业务还没验证，直接私有化可能比 API 更慢、更贵。

什么时候更应该考虑自研模型？

当 AI 能力是产品长期核心壁垒，场景有大量高质量专有数据，外部模型无法满足隐私、成本、稳定性或差异化要求，并且组织有长期算法、算力和工程投入能力时，自研才更有必要。

模型选型评测集应该怎么构造？

从真实用户任务抽样，按高频、长尾、困难、敏感、安全、失败样本分层；每条样本要有评分 Rubric，例如正确性、完整性、可执行性、引用支持、拒答合理性和用户体验。还要保留 holdout 和线上 badcase 回归，防止只优化固定题库。

如果线上模型突然不可用，产品层怎么兜底？

要提前设计降级策略：切换备用模型、返回检索结果或模板答案、限制高成本能力、提示稍后重试、转人工或保留用户输入异步处理。关键是把故障状态产品化，避免用户看到无解释的失败。