真实面经题目 · 原创解析

如果要对城市做聚类,会选择哪些特征,如何覆盖供需、地理、用户结构、时段、价格和运营指标?

城市聚类不是把所有城市指标堆进模型,而是先明确聚类用途,再构造可比较的城市级特征,覆盖供需、地理、用户结构、时段、价格和运营表现,并通过标准化、降维、稳定性检验和业务解释验证分群是否可用。

出现于:滴滴 · 数据分析

60 秒回答模板

我会先问清楚聚类目的:是为了城市分层运营、资源投放、价格策略、供需治理,还是新业务扩张。目的不同,特征权重会不同。然后按城市粒度构建特征表,不能只用绝对订单量,因为大城市天然更大,会把规模和结构混在一起。供需侧可以看请求量、完单量、司机供给、供需比、应答率、取消率、等待时长、空驶或接驾距离等;地理侧可以看城市面积、人口密度、道路密度、核心商圈或交通枢纽分布、通勤半径;用户结构看新老用户占比、活跃频次、出行目的结构、价格敏感度和留存;时段特征看早晚高峰、夜间、工作日周末、季节性和节假日波动;价格侧看客单价、里程、补贴、折扣、价格弹性和司机收入相关指标;运营侧看投诉率、服务质量、履约稳定性、增长率和活动响应。处理上要做时间窗口统一、缺失值处理、异常值截尾、人均或单均归一化、标准化,避免量纲主导聚类。算法上可以先用 PCA 或 UMAP 辅助观察,再用 KMeans、GMM、层次聚类或 DBSCAN,根据业务需求选择。评估不能只看轮廓系数,还要看分群稳定性、可解释性、是否能指导不同运营策略,以及策略实施后的指标提升。

考点 目标先行
难度 真实面经题
回答目标 展示你能把一个开放业务题拆成目标、特征、建模、评估和策略落地闭环,而不是停留在指标清单。

深入解析

01

先明确聚类目标

城市聚类是分析手段,不是目的。用于资源投放时,要突出供需缺口和增长潜力;用于价格策略时,要突出价格敏感度、里程结构和供给弹性;用于城市分层运营时,要突出规模、成熟度、用户结构和服务质量。目标不清时,特征会变成大而全,最后分出的群既不可解释也不可行动。

02

供需特征刻画履约基本盘

出行业务的城市差异首先体现在供需匹配。可以构造请求量、完单量、司机活跃量、供需比、应答率、完单率、取消率、平均等待时长、接驾距离、峰值缺口、司机在线时长等指标。为了城市间可比,应尽量使用单均、人均、每平方公里、峰谷比、增长率等相对指标,而不是只用绝对规模。

03

地理和城市结构决定服务难度

不同城市的面积、人口密度、路网密度、商圈集中度、交通枢纽分布、通勤距离和行政区分散程度会影响供需匹配、接驾时间和价格结构。地理特征不一定都能直接获得,但可以通过订单热区分布、平均出行距离、跨区比例、核心区域集中度等业务代理变量表达。

04

用户结构和时段结构解释需求形态

城市可能在总量相似的情况下有完全不同的需求形态。要看新老用户占比、活跃频次、复购、用户分层、出行距离、通勤/休闲/商务等场景代理、早晚高峰占比、夜间需求、工作日周末差异、节假日波动和季节性。时段结构尤其重要,因为高峰尖刺型城市和全天均衡型城市需要不同运营策略。

05

价格和运营指标体现策略空间

价格侧可以看平均客单价、里程单价、补贴强度、优惠使用率、价格弹性、司机收入和供给响应。运营侧可以看投诉率、服务分、取消原因结构、活动参与率、增长率和留存变化。这类特征能帮助判断城市属于价格敏感、供给不足、质量问题还是增长停滞,而不是只知道它们订单量相近。

06

建模前处理决定聚类质量

聚类对量纲、异常值和相关性非常敏感。需要统一统计窗口,处理缺失和异常,做 log 变换或 winsorize,按城市规模归一化,再做标准化。高度相关的指标可以用降维或人工筛选减少重复权重。算法选择上,KMeans 适合球状簇和简单分层,GMM 能表达软归属,层次聚类利于解释,DBSCAN 适合发现离群城市。

易错点

  • 一上来罗列几十个指标,不先说明聚类要服务的业务决策。
  • 直接用订单量、GMV、用户数等绝对规模指标,导致聚类变成城市大小排序。
  • 忽略时间窗口和季节性,把节假日、活动期和普通日期混在一起。
  • 不做标准化、异常值处理和相关性处理,让量纲或重复指标主导距离计算。
  • 只报告 KMeans 结果和轮廓系数,不解释每类城市画像和可执行策略。
  • 把聚类结果当成因果结论,直接说某类城市应该涨价或补贴,却没有后续实验验证。

面试官追问

如何选择聚类个数?

可以结合肘部法、轮廓系数、Calinski-Harabasz 指标、稳定性重采样和业务可解释性。最终不要只按数学指标选 K,还要看每一类城市能否对应清晰策略。

订单量特别大的城市会不会主导聚类?

会,所以要减少绝对规模指标的权重,使用人均、单均、占比、密度、增长率和标准化处理。也可以把规模作为单独分层,再在同规模城市内做结构聚类。

如何验证聚类结果有业务价值?

先看类内相似、类间差异和分群稳定性,再让运营同学判断是否符合城市认知。更强验证是按分群制定差异化策略,通过 A/B 或准实验观察完单率、等待时长、留存、补贴效率等是否改善。

哪些特征可能不该直接放入聚类?

强受当前策略影响的结果变量要谨慎,比如某次补贴后的短期 GMV、活动期间的异常增长。如果目标是发现城市自然结构,这些变量可能造成策略泄漏;如果目标就是运营响应分层,则可以保留但要解释清楚。