知识点标签

问题排查面试题解析

问题排查相关面试题，覆盖现象复现、链路拆解、日志指标和定位闭环。

15 道题 4 个岗位 9 个公司

标签题目

问题排查相关面试题

字节跳动 / 测开

热搜应展示 10 条但页面只展示 9 条时，测试开发应如何定位前端、接口、排序和过滤链路问题？

这题考端到端定位能力。答案不能停留在“前端或后端都有可能”，而要说明如何固定复现条件，逐层核对接口响应、过滤去重、排序补位、客户端解析、渲染和日志，最终把缺失的一条定位到具体链路和可验证证据。

测试用例设计质量工程前端可观测性问题排查

快手 / 后端开发

使用 AI 编程时，如果模型生成了严重错误代码，应如何定位、修复并建立工程防护？

这题考 AI Coding 不是只会提高效率，还要能处理模型误生成带来的工程事故。高质量回答应从复现、定位、最小修复、测试补齐、流程护栏和团队经验沉淀展开。

AI 编程 AI Agent 大语言模型质量工程问题排查稳定性

蚂蚁集团 / 算法

3D Gaussian Splatting 重建中的主要误差来源有哪些，如何从相机位姿、点云初始化和优化过程定位？

这题把“高斯重建”明确放在高斯重建 / 3D Gaussian Splatting 类重建语境下，重点考误差归因能力：相机、初始化、可见性、材质、Gaussian 参数优化和评估调试都可能成为重建误差来源。

计算机视觉模型评估问题排查神经网络算法

蚂蚁集团 / 算法

MVS 点云采样和 NeRF 采样在 3D 重建中各有什么优势和局限，如何按场景选择？

这题考的是 3D 重建方法取舍：MVS 更偏显式几何和多视图匹配点云，NeRF 更偏沿射线做体渲染采样和隐式辐射场优化，选择要看视角密度、纹理、材质、速度、输出形态和下游需求。

计算机视觉神经网络模型评估算法问题排查

阿里巴巴 / 后端开发

Agent 工具调用失败后，如何通过 trace 定位是意图识别、工具选择、参数生成还是工具服务本身的问题？

这题考的是 Agent 工具调用失败后的分层定位能力。好的回答不能只说看日志，而要把一次请求拆成意图识别、工具检索与选择、参数生成、执行前校验、工具服务调用、结果解释几个 span，并让每一层都有输入、输出、置信度、候选集、错误码、耗时和重试信息。定位时先判断用户意图是否被理解错，再看工具候选和最终选择是否合理，然后检查参数 schema、枚举、时间范围、权限上下文等是否正确，最后才归因到工具服务的网络、鉴权、超时、限流或业务错误。

计算机网络 AI Agent 可观测性问题排查稳定性质量工程

阿里巴巴 / 后端开发

Agent 系统可观测性平台应记录哪些 trace，LangSmith 和 Langfuse 如何用于调试与评估？

这题考 Agent 可观测平台该记录什么，以及如何把 trace 用于调试和评估。好的回答要覆盖请求级 trace、LLM 调用、工具调用、检索、记忆、planner、guardrail、人工反馈、成本延迟和评测结果，并说明 LangSmith 与 Langfuse 都可以承载调试和评估闭环，但选型应基于技术栈、部署合规、数据治理、评测流程、成本和集成方式，而不是简单说谁更强。

AI Agent 可观测性模型评估质量工程问题排查

滴滴 / 算法

模型做 W4A8 量化或模型迁移后，如何验证激活值、梯度和权重是否正确，并用校准数据控制误差？

这题考量化和迁移后的数值正确性验证：要能从权重映射、激活分布、梯度流、逐层误差、校准集覆盖和端到端指标几层建立质量闭环，而不是只跑一遍精度评测。

模型评估模型训练问题排查质量工程性能排查

字节跳动 / 算法

LLM 训练过程中应该监控哪些指标，如何用 loss、梯度、吞吐、显存、GPU 利用率、checkpoint 和评测集发现异常？

这道题考察 LLM 训练监控体系，而不是只问 loss 曲线。完整回答要覆盖模型质量、数值稳定性、吞吐性能、资源利用、数据管道、checkpoint 可靠性和周期评测。更重要的是说明如何用这些指标定位异常：loss spike 可能来自坏数据或学习率问题，梯度爆炸会伴随 grad norm 和 NaN，吞吐下降可能来自 dataloader、通信或 straggler，显存增长可能是泄漏或碎片，评测集退化可能暴露过拟合、数据污染或训练分布偏移。

大语言模型模型训练可观测性 GPU 问题排查模型评估

小米 / 算法

NLP 中 EDA 数据增强有哪些操作，什么时候会伤害语义和标签一致性？

这道题考察 NLP 数据增强的边界意识。EDA 的同义词替换、随机插入、交换和删除只在标签保持不变时有价值；对否定词、实体、数字、时间、领域术语、槽位和逻辑关系敏感的任务，盲目增强会制造噪声标签，导致验证和线上效果变差。

文本分类模型训练模型评估问题排查

快手 / 算法

单机多卡和多机多卡训练的核心差异是什么，如何根据互联拓扑、通信开销和并行策略做选择？

这道题考察分布式训练的系统判断。单机多卡和多机多卡的差异不只是 GPU 数，而是互联拓扑、通信延迟、带宽、故障域、调度、存储和并行策略。好答案要能按显存瓶颈、计算/通信比、batch、模型规模和网络条件选择 DDP、FSDP/ZeRO、张量并行、流水线并行或组合方案。

同题还出现在 1 个公司岗位

模型训练 GPU 可扩展性性能排查问题排查

阿里巴巴 / 后端开发

MCP 接入多个测评工具时，如果不同工具对同一问题返回格式不统一，应该如何设计统一输出协议或适配层？

这题考 MCP 多工具输出治理。多个 MCP 工具返回格式不统一时，应在工具和 Agent Runtime 之间加适配层，统一 envelope、内容块、结构化数据、错误协议、元数据、版本和审计，而不是让模型解析各类私有格式。

AI Agent 工作流系统设计服务治理问题排查

华为 / 测开

如何判断一个机器学习任务已经训练充分，可以从离线指标、泛化能力、过拟合、线上验证和业务门槛验收？

这题考察的是候选人是否能从测试和工程视角判断机器学习模型“训练好了”。好的回答不能只说 loss 收敛，而要覆盖目标指标、训练/验证曲线、泛化能力、过拟合排查、基线对比、鲁棒性测试、线上验证和业务验收门槛。

模型训练模型评估正则化问题排查

字节跳动 / 算法

为什么梯度下降在机器学习优化中有效？如何理解梯度方向、学习率、局部最优和非凸损失？

这题考的是对梯度下降有效性的本质理解：在可微损失函数附近，负梯度方向是一阶近似下让损失下降最快的方向，小步更新可以逐步降低目标函数。回答要进一步解释学习率、凸与非凸、随机梯度、鞍点、局部最优、归一化和收敛诊断，不能停在一句沿着梯度反方向走。

神经网络模型训练正则化问题排查

字节跳动 / 前端

AI 返回 ECharts 图表配置时如果出错，前端应如何做校验、降级、重试、可观测性和用户提示？

这题考前端工程师能否把 AI 生成 ECharts 配置当成不可信输入处理，并设计校验、降级、重试、观测和测试闭环，保证图表功能稳定可用。

AI 产品前端工程化稳定性可观测性问题排查

哔哩哔哩 / 算法

OCR 检测阶段遇到相邻或重叠文字时，如何分离文字区域，并与识别和后处理链路联动？

这道题考察 OCR 检测阶段对相邻或重叠文字的实例分离能力。好的回答要从检测表示、后处理、识别反馈和业务规则联动，而不是只说调阈值。

计算机视觉 OCR 问题排查