已解析题目
C/C++ 工程师相关题目
一个类似快手的大规模推荐系统有什么模块?
大规模推荐系统通常由数据采集、特征平台、召回、排序、重排、策略、实验、监控和反馈训练闭环组成。回答要强调模块分层和每层的工程约束,而不是只列推荐算法。
使用 CUTLASS 优化 GEMM/LLM 推理算子时,通常从 tile 划分、memory hierarchy、epilogue 融合和 Tensor Core 利用率哪些方向入手?
这题考候选人是否能把 CUTLASS 当成可配置的 GEMM/kernel 生成框架来理解:从问题规模、tile 层级、访存搬运、Tensor Core 指令形状、epilogue 融合和 profiling 闭环解释优化,而不是只说“用库会更快”。
针对特定 GPU 架构做算子优化是否值得,如何权衡性能收益、维护成本、可移植性和 fallback 方案?
这题考 GPU kernel 优化的工程取舍:不是问能不能榨干某一代硬件,而是问性能收益是否覆盖多架构维护、编译发布、回归矩阵和 fallback 成本。
在 LLM 推理算子中,什么时候应使用 CUDA Core,什么时候应使用 Tensor Core?
这题考察 GPU 架构理解和算子选型能力,核心不是背概念,而是能按算子形态、数据类型、规模、访存和精度做工程判断。
大模型后训练投入成本如何决策,怎样用效果收益、训练成本、推理成本和风险指标做取舍?
这题考的是大模型后训练的工程 ROI 判断。好答案不能只说效果好就继续训,而要把收益、训练成本、推理成本、数据和安全风险放到同一张决策表里,用离线评测、线上指标、成本模型和风险阈值决定做 SFT、DPO/RL、数据修复、提示词优化、RAG、蒸馏还是不做。
超大模型部署到计算集群时,如何按计算图切分并做分布式模型管理?
这题考超大模型部署系统设计。关键是把模型表示为计算图,按依赖、内存、计算量、通信和 SLA 做图切分与设备放置,再用分布式模型管理处理分片版本、加载、路由、健康检查、灰度和回滚。