真实面经题目 · 原创解析
如果要对城市做聚类,会选择哪些特征,如何覆盖供需、地理、用户结构、时段、价格和运营指标?
城市聚类不是把所有城市指标堆进模型,而是先明确聚类用途,再构造可比较的城市级特征,覆盖供需、地理、用户结构、时段、价格和运营表现,并通过标准化、降维、稳定性检验和业务解释验证分群是否可用。
真实面经题目 · 原创解析
城市聚类不是把所有城市指标堆进模型,而是先明确聚类用途,再构造可比较的城市级特征,覆盖供需、地理、用户结构、时段、价格和运营表现,并通过标准化、降维、稳定性检验和业务解释验证分群是否可用。
我会先问清楚聚类目的:是为了城市分层运营、资源投放、价格策略、供需治理,还是新业务扩张。目的不同,特征权重会不同。然后按城市粒度构建特征表,不能只用绝对订单量,因为大城市天然更大,会把规模和结构混在一起。供需侧可以看请求量、完单量、司机供给、供需比、应答率、取消率、等待时长、空驶或接驾距离等;地理侧可以看城市面积、人口密度、道路密度、核心商圈或交通枢纽分布、通勤半径;用户结构看新老用户占比、活跃频次、出行目的结构、价格敏感度和留存;时段特征看早晚高峰、夜间、工作日周末、季节性和节假日波动;价格侧看客单价、里程、补贴、折扣、价格弹性和司机收入相关指标;运营侧看投诉率、服务质量、履约稳定性、增长率和活动响应。处理上要做时间窗口统一、缺失值处理、异常值截尾、人均或单均归一化、标准化,避免量纲主导聚类。算法上可以先用 PCA 或 UMAP 辅助观察,再用 KMeans、GMM、层次聚类或 DBSCAN,根据业务需求选择。评估不能只看轮廓系数,还要看分群稳定性、可解释性、是否能指导不同运营策略,以及策略实施后的指标提升。
城市聚类是分析手段,不是目的。用于资源投放时,要突出供需缺口和增长潜力;用于价格策略时,要突出价格敏感度、里程结构和供给弹性;用于城市分层运营时,要突出规模、成熟度、用户结构和服务质量。目标不清时,特征会变成大而全,最后分出的群既不可解释也不可行动。
出行业务的城市差异首先体现在供需匹配。可以构造请求量、完单量、司机活跃量、供需比、应答率、完单率、取消率、平均等待时长、接驾距离、峰值缺口、司机在线时长等指标。为了城市间可比,应尽量使用单均、人均、每平方公里、峰谷比、增长率等相对指标,而不是只用绝对规模。
不同城市的面积、人口密度、路网密度、商圈集中度、交通枢纽分布、通勤距离和行政区分散程度会影响供需匹配、接驾时间和价格结构。地理特征不一定都能直接获得,但可以通过订单热区分布、平均出行距离、跨区比例、核心区域集中度等业务代理变量表达。
城市可能在总量相似的情况下有完全不同的需求形态。要看新老用户占比、活跃频次、复购、用户分层、出行距离、通勤/休闲/商务等场景代理、早晚高峰占比、夜间需求、工作日周末差异、节假日波动和季节性。时段结构尤其重要,因为高峰尖刺型城市和全天均衡型城市需要不同运营策略。
价格侧可以看平均客单价、里程单价、补贴强度、优惠使用率、价格弹性、司机收入和供给响应。运营侧可以看投诉率、服务分、取消原因结构、活动参与率、增长率和留存变化。这类特征能帮助判断城市属于价格敏感、供给不足、质量问题还是增长停滞,而不是只知道它们订单量相近。
聚类对量纲、异常值和相关性非常敏感。需要统一统计窗口,处理缺失和异常,做 log 变换或 winsorize,按城市规模归一化,再做标准化。高度相关的指标可以用降维或人工筛选减少重复权重。算法选择上,KMeans 适合球状簇和简单分层,GMM 能表达软归属,层次聚类利于解释,DBSCAN 适合发现离群城市。
可以结合肘部法、轮廓系数、Calinski-Harabasz 指标、稳定性重采样和业务可解释性。最终不要只按数学指标选 K,还要看每一类城市能否对应清晰策略。
会,所以要减少绝对规模指标的权重,使用人均、单均、占比、密度、增长率和标准化处理。也可以把规模作为单独分层,再在同规模城市内做结构聚类。
先看类内相似、类间差异和分群稳定性,再让运营同学判断是否符合城市认知。更强验证是按分群制定差异化策略,通过 A/B 或准实验观察完单率、等待时长、留存、补贴效率等是否改善。
强受当前策略影响的结果变量要谨慎,比如某次补贴后的短期 GMV、活动期间的异常增长。如果目标是发现城市自然结构,这些变量可能造成策略泄漏;如果目标就是运营响应分层,则可以保留但要解释清楚。