公司岗位题库

快手算法面经

29 道题 39 个标签 29 条出现记录

已解析题目

算法工程师相关题目

快手 / 算法

大模型预测token的损失是怎么算的？

大模型预测 token 的损失通常是自回归 next-token 交叉熵。训练时用 teacher forcing，把真实前缀作为上下文，模型在每个位置输出词表 logits，经 softmax 得到下一个 token 的概率，再对真实 token 取负对数似然，最后在有效 token 上求平均或求和。

大语言模型模型训练

快手 / 算法

XGBoost 的特征重要性是如何得到的？

XGBoost 特征重要性通常来自树分裂统计，例如 split 次数、带来的增益和覆盖样本量。回答要说明这些指标的含义和偏差。

XGBoost 模型评估特征工程

快手 / 算法

基于值函数和基于策略梯度的 RL 算法有什么区别，分别适合什么场景？

基于值函数和基于策略梯度的 RL 方法区别在于前者学习状态或动作价值再间接选动作，后者直接优化参数化策略。

强化学习算法模型训练

快手 / 算法

模型在线训练和离线训练有什么区别？

在线训练和离线训练的区别在于数据更新频率、训练时效、系统复杂度和稳定性要求；推荐场景常用离线主模型加在线增量或实时特征的混合方案。

模型训练推荐系统性能排查

快手 / 算法

XGBoost 如何处理缺失值，为什么目标函数要二阶展开？

这题聚焦 XGBoost 两个核心机制：缺失值通过学习默认分裂方向处理，二阶展开用梯度和 Hessian 近似目标函数以高效评估分裂收益。

XGBoost 模型训练特征工程

快手 / 算法

CVR 建模遇到转化回传延时高时怎么处理，CTR/CVR 的特征和模型结构有什么不同？

这道题考察广告 CVR 的延迟反馈和任务差异。回答要先说明 CVR 标签更稀疏、更延迟、更受点击选择偏差影响，再给出标签窗口、样本成熟、延迟建模、回填训练和离线评估的完整处理方式。

广告推荐系统模型训练模型评估

快手 / 算法

从 MHA 到 MLA，注意力机制为什么要改进，DeepSeek MLA 解决什么问题？

这题考注意力机制从效果优先到推理效率优先的演进，重点是 KV cache 压力、MHA/MQA/GQA/MLA 的取舍和工程评估。

同题还出现在 1 个公司岗位

大语言模型注意力机制 Transformer 大模型推理

快手 / 算法

MoE 一般加在大模型哪里，从训练和推理角度有什么收益与代价？

这题考 LLM MoE 的位置和训练推理取舍，回答要讲清 FFN 专家、router、稀疏激活、负载均衡和服务成本。

同题还出现在 1 个公司岗位

大语言模型模型训练大模型推理系统设计模型评估

快手 / 算法

PagedAttention 如何改善 LLM 长上下文推理的 KV Cache 管理？

这题考 PagedAttention 如何改善长上下文 LLM 推理中的 KV Cache 管理，回答重点是块化分页、减少碎片、支持连续批处理和提升显存利用率。

同题还出现在 1 个公司岗位

大语言模型大模型推理 vLLM

快手 / 算法

向量检索中 IVF_FLAT 和 HNSW 有什么区别，如何按召回率、延迟和内存选型？

这题考向量检索索引选型，回答重点是 IVF_FLAT 的聚类倒排思想、HNSW 的近邻图搜索思想，以及召回、延迟、内存、构建和更新成本的权衡。

同题还出现在 1 个公司岗位

向量数据库 Embedding RAG 模型评估

快手 / 算法

LLM 多卡并行推理中，显存占用和通信开销如何影响吞吐与延迟？

这题考 LLM 多卡并行推理的性能瓶颈，回答重点是权重显存、KV Cache、prefill/decode 差异、并行切分通信、批处理调度和长尾延迟。

性能测试性能排查可观测性大语言模型大模型推理分布式系统

快手 / 算法

LLM 流式输出如何设计断点续传、停止生成和 Token 计费？

这题考 LLM 流式输出的服务端语义设计，回答重点是断点续传、停止生成、幂等状态、Token 计费边界和前后端一致性。

同题还出现在 1 个公司岗位

计算机网络大语言模型大模型推理稳定性系统设计

快手 / 算法

Agent 沙箱中承载 Skill 时，如何避免工具调用幻觉和多工具切换混乱？

这题考 Agent 沙箱中 Skill 的可靠调用，回答重点是能力声明、工具选择约束、沙箱权限、调用确认、错误恢复和防止模型编造工具能力。

AI Agent 大语言模型稳定性系统设计

快手 / 算法

Agent Memory 为什么不能简单塞进 Prompt，渐进式披露如何减少上下文污染？

这题考 Agent Memory 的上下文污染控制，回答重点是为什么不能把全部记忆塞进 Prompt，以及如何通过渐进式披露按任务阶段加载必要记忆。

同题还出现在 1 个公司岗位

AI Agent 大语言模型 Prompt 工程稳定性

快手 / 算法

Agent 沙箱运行上下文如何封装用户配置、能力定义和可执行工具？

这题考 Agent 沙箱运行上下文的封装方式，回答重点是用户配置、能力定义、权限边界、可执行工具、工作目录、环境变量和可观测状态如何统一管理。

同题还出现在 1 个公司岗位

AI Agent 大语言模型系统设计安全

快手 / 算法

LLM 推理中做 KV Cache sparse 计算时，vLLM/Triton 实现为什么可能选择稀疏索引或稀疏块，而不是直接用 dense mask？

这题考的是稀疏注意力在推理引擎里的真实性能取舍。dense mask 在数学上能表达稀疏模式，但计算和访存仍接近 dense attention；而稀疏索引或稀疏块能让 kernel 只读取和计算被选中的 KV cache，从而节省显存带宽、减少无效 FLOPs，并更适合 vLLM 这类分页 KV 和 Triton 块级并行实现。

大语言模型大模型推理 vLLM KV Cache CUDA GPU

快手 / 算法

SmoothQuant 为什么要做 activation/weight 平滑？平滑参数如何设定，用激活分布判断模型是否适合时应关注 input channel 还是 output channel？

这道题考察对 SmoothQuant 的核心动机、等价变换和校准维度的理解。回答时要先说明 LLM 的激活 outlier 会让 INT8 activation 量化特别困难，而 SmoothQuant 通过按输入通道缩放，把一部分动态范围压力从 activation 平滑地迁移到 weight 上，从而让 W8A8 推理更稳定。关键点不是笼统地说做归一化，而是说明缩放不改变浮点计算语义、参数需要用校准集和逐层误差选择，并明确判断激活分布时主要看线性层的 input channel 维度。

大语言模型大模型推理模型训练模型评估 GPU 性能排查

快手 / 算法

AWQ 和 GPTQ 的量化原理有什么区别？在 LLM 推理部署中它们各自适合什么取舍？

这道题要求区分 AWQ 和 GPTQ 都是大模型后训练量化方法，但优化目标和工程取舍不同。GPTQ 更像基于二阶近似的逐块权重量化误差补偿，利用校准激活构造 Hessian 近似来最小化层输出重构误差；AWQ 则强调 activation-aware 的显著权重保护，通过观察激活通道重要性和缩放搜索减少关键通道误差。好的回答要能讲清原理差异、校准成本、精度与速度、kernel 适配、以及在 LLM 推理部署中的选择标准。

大语言模型大模型推理模型评估 GPU 性能排查

快手 / 算法

分布式 LLM 训练中 AllReduce、AllGather、ReduceScatter 和 AllToAll 分别解决什么通信问题，哪些并行场景会用到它们？

这道题考察分布式训练中 collective communication 的语义和并行策略映射。回答要先把 AllReduce、AllGather、ReduceScatter、AllToAll 的输入输出关系讲清，再说明它们分别解决梯度汇总、参数或激活拼接、归约后分片、个性化交换等问题。进一步要能联系数据并行、张量并行、ZeRO/FSDP、序列并行、专家并行和 MoE token dispatch，指出通信量、同步开销、拓扑和 overlap 对训练效率的影响。

大语言模型模型训练分布式系统 GPU CUDA 性能排查

快手 / 算法

大模型训练显存如何估算，参数、梯度、优化器状态、激活和临时缓存各占哪些部分？

大模型训练显存可以先拆成 model states、activations、temporary buffers、通信缓存和碎片/框架开销。model states 包括参数、梯度和优化器状态；以 Adam 混合精度训练为例，常见粗估是参数 bf16/fp16 2P、梯度 2P、Adam 一阶和二阶矩 fp32 8P、可选 fp32 master weights 4P，总计约 12P 到 16P bytes。除此之外，activation 随 batch、sequence length、hidden size 和层数增长，长上下文 attention 还可能带来平方项；临时缓存包括 attention workspace、GEMM workspace、logits、通信 bucket、all-gather buffer 和内存碎片。估算时要同时考虑并行策略、ZeRO 分片、activation checkpointing、精度和 micro-batch。

同题还出现在 1 个公司岗位

大语言模型模型训练内存管理 GPU 性能排查

快手 / 算法

接手一个未量化的大模型时，如何推进量化方案选择、校准、精度评估和推理性能迭代？

这题考未量化大模型的量化 rollout 方法论，重点是从部署目标、量化范围、校准集、kernel 支持、质量回归、性能收益到灰度回滚形成闭环，而不是背几个量化名词。

同题还出现在 1 个公司岗位

大语言模型大模型推理性能排查内存管理 GPU

快手 / 算法

单机多卡和多机多卡训练的核心差异是什么，如何根据互联拓扑、通信开销和并行策略做选择？

这道题考察分布式训练的系统判断。单机多卡和多机多卡的差异不只是 GPU 数，而是互联拓扑、通信延迟、带宽、故障域、调度、存储和并行策略。好答案要能按显存瓶颈、计算/通信比、batch、模型规模和网络条件选择 DDP、FSDP/ZeRO、张量并行、流水线并行或组合方案。

同题还出现在 1 个公司岗位

模型训练 GPU 可扩展性性能排查问题排查

快手 / 算法

怎么加速模型训练？

加速模型训练要从数据、模型、计算、分布式和实验流程五层回答。核心不是简单说“加 GPU”，而是减少无效计算、提高硬件利用率、降低通信成本，并保证加速后模型效果和可复现性不被破坏。

同题还出现在 1 个公司岗位

模型训练性能排查大语言模型

快手 / 算法

大模型时代，小模型还有哪些价值，如何在效果、成本和延迟之间取舍？

大模型时代小模型仍然有价值，尤其在低延迟、低成本、高并发、端侧部署、隐私保护和专用任务上。合理方案通常不是二选一，而是用小模型承担高频、确定、轻量任务，用大模型处理复杂、开放、低置信或需要强推理的请求。

大语言模型大模型推理模型评估性能排查模型训练

快手 / 算法

Chain-of-Thought 为什么能提升复杂推理任务表现，它的收益、风险和生产可控性如何理解？

这题考 Chain-of-Thought 的机制理解：它通过显式或隐式中间步骤降低复杂任务的一次性求解难度，但上线时要控制答案暴露、成本、稳定性和可验证性。

同题还出现在 1 个公司岗位

大语言模型 Prompt 工程模型评估大模型推理模型训练

快手 / 算法

SIM 在推荐系统长序列兴趣建模中改进了什么问题？

这题考推荐系统长序列兴趣建模的核心矛盾。SIM 改进的问题不是多任务学习本身，而是传统 DIN/DIEN 等模型通常只能使用较短历史行为，直接建模超长序列又计算重、噪声多、目标相关性弱。

推荐系统算法模型训练 Embedding

快手 / 算法

短视频推荐精排模型上线时，如何在冷启动和热启动之间取舍，并评估收敛周期、资源消耗和线上风险？

这道题考察推荐精排模型上线方式选择。回答要区分冷启动全新训练和热启动继承已有模型，并围绕收敛、资源、线上风险、灰度和回滚制定方案。

推荐系统模型训练模型评估性能排查

快手 / 算法

在电商推荐在线 serving 链路中，如何优化精排模型推理计算，并用 RT/P99、QPS、资源成本和线上指标验证收益？

这道题考察推荐在线 serving 中精排推理优化的工程能力。回答要同时覆盖模型、特征、服务、硬件和评估，不应只说压缩模型或加机器。

Java Java 并发线程池并发推荐系统性能排查

快手 / 算法

多模态大模型如何支持动态分辨率输入，位置编码应如何设计以兼顾长宽比、局部细节和视觉 token 成本？

这题考 VLM 视觉输入工程。回答要讲动态分辨率切分、视觉 token 预算、位置编码、长宽比保留、局部细节和训练推理一致性。

多模态学习通义千问计算机视觉 Transformer