已解析题目
数据分析师相关题目
在 Hive 中有一个城市百万级经纬度数据,如何做空间聚类,并兼顾距离计算、分区分桶、性能和结果验证?
这题考的是把百万级经纬度点在 Hive 环境里做成可落地的空间聚类方案,而不是只说一个算法名。好的回答要先明确聚类目标和距离口径,再选择网格、Geohash、KMeans 或 DBSCAN 等方法,并说明 Hive 里如何用分区分桶、邻域裁剪、两阶段距离计算和结果验证控制成本。核心原则是避免全量两两距离,把空间问题转成可分区、可局部比较、可抽样核验的数据处理流程。
DBSCAN 的原理是什么?如何用伪代码描述其聚类过程?
这道题考察 DBSCAN 的密度聚类思想和过程表达能力。核心是用 eps 邻域和 minPts 定义核心点、边界点和噪声点,从核心点出发把密度可达的点扩展成簇;它不需要预先指定簇数,能发现任意形状簇和离群点,但对参数、距离度量和密度差异敏感。