蚂蚁集团 C/C++ 工程师面经题库

已解析题目

C/C++ 工程师相关题目

这题考慢算子优化的工程决策树，重点不是单独判断 Memory Bound 或 Compute Bound，而是先判断投入是否值得，再把 profile 证据映射到 kernel、融合、图优化和 layout 等不同路径。

这题考未量化大模型的量化 rollout 方法论，重点是从部署目标、量化范围、校准集、kernel 支持、质量回归、性能收益到灰度回滚形成闭环，而不是背几个量化名词。

同题还出现在 1 个公司岗位

这题考权重量化的反直觉加速机制，核心是解释额外 dequant 计算为什么可能小于权重带宽、显存占用、cache 命中和融合带来的收益，同时说明它只在合适瓶颈和 kernel 支持下成立。

这题考动态图和静态图在推理优化中的取舍，重点是静态图提供全局依赖、shape、pattern 和内存信息，便于融合和调度优化；转换开销要靠缓存、shape bucketing、warmup、fallback 和端到端摊销控制。

这题考 LLM 推理显存估算的基础功。高质量回答要给出 KV Cache 公式，说明 batch、上下文长度、层数、KV head 数、head_dim、数据类型、beam/并发和 GQA/MQA 都会影响显存，并区分权重显存、激活显存和 KV Cache 显存。

这题考 LLM 量化命名和工程取舍。W4A16 表示权重 4 bit、激活 16 bit，通常属于 weight-only 或偏权重量化路线，核心收益是降低权重显存和内存带宽，核心代价是权重误差、反量化开销、kernel 适配和部分能力回归。

这题考 Attention 量化为什么比静态权重量化更敏感。答案要围绕 Q/K/V 动态分布、QK logits、mask、softmax 指数放大、KV Cache 长期复用和误差跨层传播展开，并给出常见工程缓解策略。