知识点标签

问题排查面试题解析

问题排查相关面试题,覆盖现象复现、链路拆解、日志指标和定位闭环。

15 道题 4 个岗位 9 个公司

问题排查相关面试题

热搜应展示 10 条但页面只展示 9 条时,测试开发应如何定位前端、接口、排序和过滤链路问题?

这题考端到端定位能力。答案不能停留在“前端或后端都有可能”,而要说明如何固定复现条件,逐层核对接口响应、过滤去重、排序补位、客户端解析、渲染和日志,最终把缺失的一条定位到具体链路和可验证证据。

Agent 工具调用失败后,如何通过 trace 定位是意图识别、工具选择、参数生成还是工具服务本身的问题?

这题考的是 Agent 工具调用失败后的分层定位能力。好的回答不能只说看日志,而要把一次请求拆成意图识别、工具检索与选择、参数生成、执行前校验、工具服务调用、结果解释几个 span,并让每一层都有输入、输出、置信度、候选集、错误码、耗时和重试信息。定位时先判断用户意图是否被理解错,再看工具候选和最终选择是否合理,然后检查参数 schema、枚举、时间范围、权限上下文等是否正确,最后才归因到工具服务的网络、鉴权、超时、限流或业务错误。

Agent 系统可观测性平台应记录哪些 trace,LangSmith 和 Langfuse 如何用于调试与评估?

这题考 Agent 可观测平台该记录什么,以及如何把 trace 用于调试和评估。好的回答要覆盖请求级 trace、LLM 调用、工具调用、检索、记忆、planner、guardrail、人工反馈、成本延迟和评测结果,并说明 LangSmith 与 Langfuse 都可以承载调试和评估闭环,但选型应基于技术栈、部署合规、数据治理、评测流程、成本和集成方式,而不是简单说谁更强。

LLM 训练过程中应该监控哪些指标,如何用 loss、梯度、吞吐、显存、GPU 利用率、checkpoint 和评测集发现异常?

这道题考察 LLM 训练监控体系,而不是只问 loss 曲线。完整回答要覆盖模型质量、数值稳定性、吞吐性能、资源利用、数据管道、checkpoint 可靠性和周期评测。更重要的是说明如何用这些指标定位异常:loss spike 可能来自坏数据或学习率问题,梯度爆炸会伴随 grad norm 和 NaN,吞吐下降可能来自 dataloader、通信或 straggler,显存增长可能是泄漏或碎片,评测集退化可能暴露过拟合、数据污染或训练分布偏移。

单机多卡和多机多卡训练的核心差异是什么,如何根据互联拓扑、通信开销和并行策略做选择?

这道题考察分布式训练的系统判断。单机多卡和多机多卡的差异不只是 GPU 数,而是互联拓扑、通信延迟、带宽、故障域、调度、存储和并行策略。好答案要能按显存瓶颈、计算/通信比、batch、模型规模和网络条件选择 DDP、FSDP/ZeRO、张量并行、流水线并行或组合方案。

同题还出现在 1 个公司岗位

MCP 接入多个测评工具时,如果不同工具对同一问题返回格式不统一,应该如何设计统一输出协议或适配层?

这题考 MCP 多工具输出治理。多个 MCP 工具返回格式不统一时,应在工具和 Agent Runtime 之间加适配层,统一 envelope、内容块、结构化数据、错误协议、元数据、版本和审计,而不是让模型解析各类私有格式。

如何判断一个机器学习任务已经训练充分,可以从离线指标、泛化能力、过拟合、线上验证和业务门槛验收?

这题考察的是候选人是否能从测试和工程视角判断机器学习模型“训练好了”。好的回答不能只说 loss 收敛,而要覆盖目标指标、训练/验证曲线、泛化能力、过拟合排查、基线对比、鲁棒性测试、线上验证和业务验收门槛。

为什么梯度下降在机器学习优化中有效?如何理解梯度方向、学习率、局部最优和非凸损失?

这题考的是对梯度下降有效性的本质理解:在可微损失函数附近,负梯度方向是一阶近似下让损失下降最快的方向,小步更新可以逐步降低目标函数。回答要进一步解释学习率、凸与非凸、随机梯度、鞍点、局部最优、归一化和收敛诊断,不能停在一句沿着梯度反方向走。