真实面经题目 · 原创解析
如何设计实验验证 AI 助手表达不确定性是否提升长期信任?
这题考产品实验设计,重点是验证 AI 助手表达不确定性对长期信任的影响,同时控制答案正确性、任务类型、用户阶段和护栏指标。
真实面经题目 · 原创解析
这题考产品实验设计,重点是验证 AI 助手表达不确定性对长期信任的影响,同时控制答案正确性、任务类型、用户阶段和护栏指标。
我会把实验假设写清楚:在 AI 助手无法充分确定答案时,适度表达不确定性并给出验证路径,是否比强行确定回答更能提升长期信任和复用。实验组不是简单说“我不知道”,而是使用结构化不确定表达,比如说明置信度、缺少的信息、建议用户补充什么、给出可验证来源或下一步。对照组使用原回答策略。任务集要同时包含确定题、模糊题、信息不足题和高风险题,避免只在简单任务上比较。指标分短期和长期:短期看满意度、理解度、采纳率、追问率、任务完成率;长期看复用率、遇错后继续使用、对高风险任务的合理依赖、投诉和过度信任。实验设计要随机分流、控制用户和任务结构,并把答案正确率、拒答率、转人工率作为护栏。结论不是不确定性越多越好,而是找到何时表达、表达到什么程度、如何帮助用户继续完成任务。
题目问的是表达不确定性是否提升长期信任,不是让 AI 遇到困难就拒绝回答。实验假设应聚焦适度透明:当证据不足或风险较高时,系统说明不确定来源、需要补充的信息和可验证路径,从而减少被误导并提升长期可靠感。
实验组可以使用结构化表达:指出不确定原因、给出置信层级、列出假设条件、请求澄清、建议核验方式或推荐人工处理。对照组保持原有回答策略。两组在内容质量、入口和任务流程上尽量一致,避免把措辞差异和功能差异混在一起。
如果只测简单确定任务,不确定表达可能显得啰嗦;如果只测无法回答的问题,又无法评估正常体验。因此任务集要包含信息充分、信息不足、歧义、多答案、高风险和可验证任务,并按任务类型分层分析效果。
短期可以看满意度、理解度、任务完成、追问和采纳;长期要看用户是否复用、遇到错误后是否继续使用、是否愿意在合适任务中依赖系统、是否减少投诉和误用。长期信任不是盲目信任,还要看用户是否能形成合理预期。
不确定表达可能降低即时完成率,也可能减少错误承诺。实验必须同时看答案正确率、幻觉率、拒答率、转人工率、任务耗时、用户挫败感和高风险误导。只有主指标改善且护栏可接受,才说明策略值得扩大。
可能会影响短期完成率,所以要把完成率作为护栏。但如果它减少错误承诺和投诉,并提升长期复用,仍可能是更好的策略。
只在证据不足、歧义或高风险场景表达不确定,并给出明确下一步;确定场景不应过度加免责声明。
可以看重复使用、遇错后留存、建议采纳、合理任务升级、投诉减少和对能力边界的理解,而不是只看一次满意度。
需要。如果实验组同时因为模型更好而正确率更高,就无法判断信任提升来自不确定表达还是答案质量。