如果要对城市做聚类，会选择哪些特征，如何覆盖供需、地理、用户结构、时段、价格和运营指标？｜滴滴数据分析面经解析

60 秒回答模板

我会先问清楚聚类目的：是为了城市分层运营、资源投放、价格策略、供需治理，还是新业务扩张。目的不同，特征权重会不同。然后按城市粒度构建特征表，不能只用绝对订单量，因为大城市天然更大，会把规模和结构混在一起。供需侧可以看请求量、完单量、司机供给、供需比、应答率、取消率、等待时长、空驶或接驾距离等；地理侧可以看城市面积、人口密度、道路密度、核心商圈或交通枢纽分布、通勤半径；用户结构看新老用户占比、活跃频次、出行目的结构、价格敏感度和留存；时段特征看早晚高峰、夜间、工作日周末、季节性和节假日波动；价格侧看客单价、里程、补贴、折扣、价格弹性和司机收入相关指标；运营侧看投诉率、服务质量、履约稳定性、增长率和活动响应。处理上要做时间窗口统一、缺失值处理、异常值截尾、人均或单均归一化、标准化，避免量纲主导聚类。算法上可以先用 PCA 或 UMAP 辅助观察，再用 KMeans、GMM、层次聚类或 DBSCAN，根据业务需求选择。评估不能只看轮廓系数，还要看分群稳定性、可解释性、是否能指导不同运营策略，以及策略实施后的指标提升。

考点 目标先行

难度 真实面经题

回答目标 展示你能把一个开放业务题拆成目标、特征、建模、评估和策略落地闭环，而不是停留在指标清单。

深入解析

先明确聚类目标

城市聚类是分析手段，不是目的。用于资源投放时，要突出供需缺口和增长潜力；用于价格策略时，要突出价格敏感度、里程结构和供给弹性；用于城市分层运营时，要突出规模、成熟度、用户结构和服务质量。目标不清时，特征会变成大而全，最后分出的群既不可解释也不可行动。

供需特征刻画履约基本盘

出行业务的城市差异首先体现在供需匹配。可以构造请求量、完单量、司机活跃量、供需比、应答率、完单率、取消率、平均等待时长、接驾距离、峰值缺口、司机在线时长等指标。为了城市间可比，应尽量使用单均、人均、每平方公里、峰谷比、增长率等相对指标，而不是只用绝对规模。

地理和城市结构决定服务难度

不同城市的面积、人口密度、路网密度、商圈集中度、交通枢纽分布、通勤距离和行政区分散程度会影响供需匹配、接驾时间和价格结构。地理特征不一定都能直接获得，但可以通过订单热区分布、平均出行距离、跨区比例、核心区域集中度等业务代理变量表达。

用户结构和时段结构解释需求形态

城市可能在总量相似的情况下有完全不同的需求形态。要看新老用户占比、活跃频次、复购、用户分层、出行距离、通勤/休闲/商务等场景代理、早晚高峰占比、夜间需求、工作日周末差异、节假日波动和季节性。时段结构尤其重要，因为高峰尖刺型城市和全天均衡型城市需要不同运营策略。

价格和运营指标体现策略空间

价格侧可以看平均客单价、里程单价、补贴强度、优惠使用率、价格弹性、司机收入和供给响应。运营侧可以看投诉率、服务分、取消原因结构、活动参与率、增长率和留存变化。这类特征能帮助判断城市属于价格敏感、供给不足、质量问题还是增长停滞，而不是只知道它们订单量相近。

建模前处理决定聚类质量

聚类对量纲、异常值和相关性非常敏感。需要统一统计窗口，处理缺失和异常，做 log 变换或 winsorize，按城市规模归一化，再做标准化。高度相关的指标可以用降维或人工筛选减少重复权重。算法选择上，KMeans 适合球状簇和简单分层，GMM 能表达软归属，层次聚类利于解释，DBSCAN 适合发现离群城市。

易错点

一上来罗列几十个指标，不先说明聚类要服务的业务决策。
直接用订单量、GMV、用户数等绝对规模指标，导致聚类变成城市大小排序。
忽略时间窗口和季节性，把节假日、活动期和普通日期混在一起。
不做标准化、异常值处理和相关性处理，让量纲或重复指标主导距离计算。
只报告 KMeans 结果和轮廓系数，不解释每类城市画像和可执行策略。
把聚类结果当成因果结论，直接说某类城市应该涨价或补贴，却没有后续实验验证。

面试官追问

如何选择聚类个数？

可以结合肘部法、轮廓系数、Calinski-Harabasz 指标、稳定性重采样和业务可解释性。最终不要只按数学指标选 K，还要看每一类城市能否对应清晰策略。

订单量特别大的城市会不会主导聚类？

会，所以要减少绝对规模指标的权重，使用人均、单均、占比、密度、增长率和标准化处理。也可以把规模作为单独分层，再在同规模城市内做结构聚类。

如何验证聚类结果有业务价值？

先看类内相似、类间差异和分群稳定性，再让运营同学判断是否符合城市认知。更强验证是按分群制定差异化策略，通过 A/B 或准实验观察完单率、等待时长、留存、补贴效率等是否改善。

哪些特征可能不该直接放入聚类？

强受当前策略影响的结果变量要谨慎，比如某次补贴后的短期 GMV、活动期间的异常增长。如果目标是发现城市自然结构，这些变量可能造成策略泄漏；如果目标就是运营响应分层，则可以保留但要解释清楚。