如何设计实验验证 AI 助手表达不确定性是否提升长期信任？｜百度产品面经解析

60 秒回答模板

我会把实验假设写清楚：在 AI 助手无法充分确定答案时，适度表达不确定性并给出验证路径，是否比强行确定回答更能提升长期信任和复用。实验组不是简单说“我不知道”，而是使用结构化不确定表达，比如说明置信度、缺少的信息、建议用户补充什么、给出可验证来源或下一步。对照组使用原回答策略。任务集要同时包含确定题、模糊题、信息不足题和高风险题，避免只在简单任务上比较。指标分短期和长期：短期看满意度、理解度、采纳率、追问率、任务完成率；长期看复用率、遇错后继续使用、对高风险任务的合理依赖、投诉和过度信任。实验设计要随机分流、控制用户和任务结构，并把答案正确率、拒答率、转人工率作为护栏。结论不是不确定性越多越好，而是找到何时表达、表达到什么程度、如何帮助用户继续完成任务。

考点 假设框架

难度 真实面经题

回答目标 验证不确定性表达效果

深入解析

实验假设要区分不确定表达和拒答

题目问的是表达不确定性是否提升长期信任，不是让 AI 遇到困难就拒绝回答。实验假设应聚焦适度透明：当证据不足或风险较高时，系统说明不确定来源、需要补充的信息和可验证路径，从而减少被误导并提升长期可靠感。

处理组要设计具体表达策略

实验组可以使用结构化表达：指出不确定原因、给出置信层级、列出假设条件、请求澄清、建议核验方式或推荐人工处理。对照组保持原有回答策略。两组在内容质量、入口和任务流程上尽量一致，避免把措辞差异和功能差异混在一起。

任务样本要覆盖确定与模糊场景

如果只测简单确定任务，不确定表达可能显得啰嗦；如果只测无法回答的问题，又无法评估正常体验。因此任务集要包含信息充分、信息不足、歧义、多答案、高风险和可验证任务，并按任务类型分层分析效果。

长期信任要看后续行为

短期可以看满意度、理解度、任务完成、追问和采纳；长期要看用户是否复用、遇到错误后是否继续使用、是否愿意在合适任务中依赖系统、是否减少投诉和误用。长期信任不是盲目信任，还要看用户是否能形成合理预期。

护栏指标决定实验能否放量

不确定表达可能降低即时完成率，也可能减少错误承诺。实验必须同时看答案正确率、幻觉率、拒答率、转人工率、任务耗时、用户挫败感和高风险误导。只有主指标改善且护栏可接受，才说明策略值得扩大。

易错点

把不确定性表达理解成一律说不知道，忽略继续完成任务的设计。
只看短期满意度，没有观察复用、遇错后行为和长期合理信任。
没有任务分层，导致简单任务和高风险任务的效果混在一起。
没有控制答案质量、流程入口和用户结构，实验结论不干净。
把信任提升当成越依赖越好，忽略过度信任和误用风险。

面试官追问

不确定表达会不会降低转化或完成率？

可能会影响短期完成率，所以要把完成率作为护栏。但如果它减少错误承诺和投诉，并提升长期复用，仍可能是更好的策略。

如何避免用户觉得 AI 总是不自信？

只在证据不足、歧义或高风险场景表达不确定，并给出明确下一步；确定场景不应过度加免责声明。

长期信任怎么量化？

可以看重复使用、遇错后留存、建议采纳、合理任务升级、投诉减少和对能力边界的理解，而不是只看一次满意度。

实验中答案正确率需要控制吗？

需要。如果实验组同时因为模型更好而正确率更高，就无法判断信任提升来自不确定表达还是答案质量。