已解析题目
C/C++ 工程师相关题目
AI Infra 中拿到一个慢算子时,如何判断是否值得优化,并选择 kernel 优化、算子融合、图优化或数据布局调整?
这题考慢算子优化的工程决策树,重点不是单独判断 Memory Bound 或 Compute Bound,而是先判断投入是否值得,再把 profile 证据映射到 kernel、融合、图优化和 layout 等不同路径。
接手一个未量化的大模型时,如何推进量化方案选择、校准、精度评估和推理性能迭代?
这题考未量化大模型的量化 rollout 方法论,重点是从部署目标、量化范围、校准集、kernel 支持、质量回归、性能收益到灰度回滚形成闭环,而不是背几个量化名词。
同题还出现在 1 个公司岗位
AWQ 等权重量化引入反量化步骤后,为什么仍可能让 LLM 推理整体变快?
这题考权重量化的反直觉加速机制,核心是解释额外 dequant 计算为什么可能小于权重带宽、显存占用、cache 命中和融合带来的收益,同时说明它只在合适瓶颈和 kernel 支持下成立。
推理优化中为什么常把动态图转成静态图再做算子融合,转换开销如何评估和控制?
这题考动态图和静态图在推理优化中的取舍,重点是静态图提供全局依赖、shape、pattern 和内存信息,便于融合和调度优化;转换开销要靠缓存、shape bucketing、warmup、fallback 和端到端摊销控制。
LLM 推理中 KV Cache 大小如何计算,哪些参数决定显存占用?
这题考 LLM 推理显存估算的基础功。高质量回答要给出 KV Cache 公式,说明 batch、上下文长度、层数、KV head 数、head_dim、数据类型、beam/并发和 GQA/MQA 都会影响显存,并区分权重显存、激活显存和 KV Cache 显存。
LLM 量化中 W4A16 表示什么,它在权重位宽和激活精度上有什么取舍?
这题考 LLM 量化命名和工程取舍。W4A16 表示权重 4 bit、激活 16 bit,通常属于 weight-only 或偏权重量化路线,核心收益是降低权重显存和内存带宽,核心代价是权重误差、反量化开销、kernel 适配和部分能力回归。
为什么 Attention 相关量化比普通权重量化更难,softmax、动态范围和误差放大会带来哪些问题?
这题考 Attention 量化为什么比静态权重量化更敏感。答案要围绕 Q/K/V 动态分布、QK logits、mask、softmax 指数放大、KV Cache 长期复用和误差跨层传播展开,并给出常见工程缓解策略。