出行派单中，如何建模乘客对“顺路”的感知，并构造训练数据？｜滴滴算法面经解析

60 秒回答模板

我会先把“顺路”定义成乘客感知到的额外成本是否可接受，而不只是导航距离更短。建模目标可以是预测某个派单或路线方案的“感知不顺路风险”，标签来自显式反馈、取消、投诉、差评、乘后评价、客服原因和少量人工复核；强标签不足时，用绕行率、额外时长、方向夹角、路径重合度、反向行驶、偏离主路、接送顺序变化等规则生成弱监督样本，并保留不确定样本不强行标注。特征上要同时看几何路线、时间成本、乘客历史容忍度、订单场景、天气高峰和价格/等待等上下文。模型可以从规则分层和可解释分类/排序模型做起，输出顺路感知分或不顺路风险，并做概率校准。评估不能只看 AUC，还要看校准、规则命中样本表现、取消率、投诉率、差评率、接受率、完单率和司机/平台效率。上线时要有硬规则拦截、阈值灰度、异常回退和 A/B 监控，宁可少放行一部分边界方案，也不要为了派单效率牺牲乘客体验。

考点 感知优先

难度 真实面经题

回答目标 讲清原理、实现和边界

深入解析

先定义乘客感知目标

“顺路”不是单纯的最短路或 ETA 最小，而是乘客是否觉得这次路线、接送顺序和额外时间在心理上可接受。同样多 3 分钟，在通勤高峰、赶车、雨天、反向绕行、先靠近目的地又远离目的地等场景下，乘客感知会完全不同。面试里先把目标定义成“感知不顺路风险”或“顺路接受概率”，后面的标签和特征才有统一口径。

把标签分成强标签和弱标签

强标签可以来自用户明确反馈，例如乘后评价、投诉、客服原因、取消原因、路线不满、少量人工审核样本。隐式标签可以用取消、提前终止、差评、重复改派、订单接受后放弃等行为近似，但这些信号有噪声，不能直接等同于“不顺路”。强标签少时，用规则生成弱标签，并给每个样本保留置信度或标签来源，避免把所有样本当成同等质量。

用规则做弱监督样本

可用规则包括：相对直达路线的额外时长、额外距离、绕行率、起终点方向夹角、路径重合度、是否出现明显反向行驶、是否多次远离目的地、接送顺序是否让乘客先接近又远离目的地、实际路线和承诺路线差异。规则阈值不要说成固定事实，应作为业务可调参数。更稳妥的做法是多条规则一致时打高置信标签，规则冲突或边界样本进入人工复核或训练时降低权重。

特征设计要覆盖几何、时间和人群

几何特征看距离增量、方向一致性、路径重合、转弯和绕行形态；时间特征看额外预计耗时、等待、迟到风险、峰谷时段和天气活动；用户特征看历史取消、投诉、对绕行的容忍度、是否经常在类似场景接受方案；订单特征看起终点类型、行程长度、价格补偿、服务类型和司机接驾状态。回答时要强调这些是通用候选特征，不是某家公司内部字段。

建模时处理偏差和校准

训练数据只来自被展示、被派出或被用户接受过的方案，会有选择偏差；取消和投诉又受价格、等待、司机服务、天气等因素影响。可以先用规则基线和可解释模型验证方向，再训练分类、排序或多任务模型预测不顺路风险，并通过时间切分、城市/区域切片和概率校准检查泛化。若有展示日志和策略概率，可以做 propensity 加权或分桶对比，减少只学习历史策略偏好的问题。

评估和上线以体验安全为先

离线看 AUC、PR-AUC、校准误差、规则高置信样本召回、不同城市/时段/长短途切片表现；在线看取消率、投诉率、差评率、接受率、完单率、乘客等待、司机空驶和平台效率。上线不应只追求派单成功率，还要设置硬规则拦截、风险阈值、灰度流量、异常监控和回退策略。边界方案可以进入人工抽检或小流量探索，明显不顺路的方案应直接拦截。

易错点

把题目回答成最短路或 ETA 预估，没有讨论乘客主观感知和训练标签。
直接编造固定绕行阈值或滴滴内部规则，把通用方案说成来源事实。
把取消、投诉、差评全部当成干净标签，忽略价格、等待、服务和历史策略带来的噪声。
只优化派单效率、接受率或完单率，不设置投诉、差评、取消和人工抽检等体验护栏。

面试官追问

没有大量人工标注时怎么启动？

先用高置信业务规则构造弱标签，例如额外时长过高、明显反向、路径重合度过低作为不顺路候选；用直达增量很小、方向一致、历史反馈稳定的样本作为顺路候选。再抽取规则冲突和边界样本做少量人工复核，用来校准规则和模型。

取消或投诉能不能直接当成不顺路标签？

不能直接等同。取消和投诉可能来自等待太久、价格变化、司机服务、天气或用户临时改变计划。可以把它们作为弱标签或辅助任务，并结合路线增量、方向、反馈原因和上下文过滤，必要时给低置信度。

如何避免模型只学到历史派单策略？

训练集按时间切分，保留展示/派单日志，记录候选是否被展示和用户是否有反馈。若有策略概率可做 propensity 加权；没有时至少按城市、时段、距离段和策略版本切片验证，并用规则高置信样本做稳定性检查。

上线后派单效率提升但投诉率也升高怎么办？

说明目标或阈值没有把体验约束放够。应先回滚或收紧高风险阈值，按绕行率、额外时长、接送顺序、区域和人群切片定位问题，再把投诉/差评约束纳入排序目标或硬规则，不能只用成交率覆盖体验损失。