分页题目
百度相关面试题第 2 页
前端或应用侧调用大模型 API 时,Prompt 安全设计要覆盖哪些风险和链路?
这题考前端或应用侧调用大模型 API 时的安全链路,回答重点是不要把密钥和权限放到浏览器,Prompt 安全要覆盖注入、越权、敏感信息和输出治理。
前端如何用 SSE 实现 AI 流式输出,并做好增量渲染和吐字动画?
这题考前端如何用 SSE 承接 AI 流式输出并实现稳定的吐字动画,回答重点是流解析、增量状态、渲染节流、取消重连和边界处理。
客户对大模型生成文案不满意时,AIGC 产品经理如何定位问题并推动改进?
这题考 AIGC 产品经理面对客户负反馈时的闭环能力。好的回答要先稳定客户和收集证据,再把不满意拆成质量、场景、输入、知识、合规、风格和预期管理问题,最后用评测集、产品能力和交付沟通推动改进。
搜索向 AI 转型时,应为广告主提供哪些 AI 赋能投放工具?
这题考 AI 搜索商业化里广告主侧工具链设计,重点不是泛泛说生成素材,而是从意图洞察、投放搭建、出价预算、归因诊断、控制护栏和反馈闭环完整回答。
生成式 AI 搜索削弱点击后,搜索广告计费模式应如何从 CPC 演变?
这题考 AI 搜索商业化定价迁移,关键是说明 CPC 弱化后如何按曝光、互动、线索、成交和辅助转化建立混合计费,而不是简单说从点击改成转化。
AI 搜索答案错误引用广告主信息时,产品和流程安全护栏如何设计?
这题考 AI 搜索商业化场景下的可信和事故治理,回答要覆盖信息源约束、生成时校验、用户侧呈现、人工审核、投诉处置和模型反馈闭环。
PPO 后训练中,GAE 的 lambda 参数如何影响优势估计的偏差和方差?
这题考 PPO 后训练里优势估计的稳定性来源:GAE lambda 通过控制 TD 残差的有效累积长度,在低方差高偏差和低偏差高方差之间取舍。
把 FP16 权重量化为 INT8 并保留 FP32 scale 时,scale factor 如何计算,为什么常用绝对值最大值定标?
这题考权重量化的基础闭环:从 FP16 到 signed INT8 的映射、scale 的计算、absmax 定标的原因、反量化误差,以及 per-tensor/per-channel 和 outlier 取舍。
手写 CUDA vector add kernel 时,为什么需要边界判断,为什么通常不用 shared memory,block size 和 warp 有什么关系?
这题考 CUDA 入门 kernel 的工程基本功:线程索引、越界保护、全局内存合并访问、shared memory 是否有复用收益、block size 与 warp/occupancy 的关系。
手写 CUDA All-Reduce/归约 kernel 时,如何设计线程内与 block 内归约,并说明 block 间同步和跨 GPU AllReduce 通常为什么需要多 kernel、cooperative groups 或 NCCL?
这题要先澄清 All-Reduce 在面试手写题里的边界:单 GPU 内通常先写归约 kernel,再解释 block 间同步为什么不能靠普通 __syncthreads 解决;真正跨 GPU AllReduce 属于通信 collective,通常交给 NCCL 或多阶段通信算法。
AI 产品选型时,如何判断用自研模型、开源模型还是第三方 API,并说明选择理由?
这题考 AI 产品经理是否能把模型来源选择讲成业务目标、效果验证、数据风险、成本延迟、可控性和 fallback 的综合决策,而不是按热度报模型名字。
同题还出现在 1 个公司岗位
评价 AI 对话机器人产品时,如何从能力边界、体验、场景覆盖和留存价值做竞品分析?
这题考候选人是否能把“哪个对话机器人做得好”转成结构化竞品判断:先定义用户任务,再比较能力边界、交互体验、场景覆盖、信任安全和留存价值。
同公司岗位有 4 条面经记录
AI 产品经理如何区分 Agent、RAG 和 Function Calling,并判断它们适合哪些产品场景?
这题考的是能否把大模型技术概念转成产品场景判断:RAG 解决知识来源和可追溯,Function Calling 解决外部动作和结构化能力接入,Agent 解决多步骤目标拆解和自主执行。
ToB 大模型产品服务企业客户时,产品经理应如何把握场景价值、交付边界、数据安全和持续运营?
这题考 ToB 大模型产品经理的端到端判断力:先验证企业场景是否有业务价值,再定义可交付边界和验收指标,同时守住数据安全、系统集成、成本风险和上线后的持续运营闭环。
大模型 SFT 微调效果不好时,可以从哪些数据、模板、训练配置、参数高效微调和评估闭环维度优化?
这题考的是 SFT 效果诊断和优化方法论:要把问题拆成数据质量、任务分布、指令模板、训练超参、PEFT 配置、基座能力和评估闭环,而不是只说多清洗数据。
产品经理如何评估大模型效果,并从数据、Prompt、RAG、模型和体验层面推动效果提升?
这题考的是 AI 产品经理能否把大模型效果从一句主观好不好,拆成可定义、可评测、可归因、可迭代的产品质量闭环,并能说清不同优化手段的边界。
同题还出现在 2 个公司岗位
面试中被问用过哪些 AI 产品及其优缺点时,产品经理如何结构化评价体验、能力边界和改进空间?
这题考的是产品经理是否真的使用和拆解过 AI 产品:回答要从用户任务、能力边界、交互体验、信任机制、指标和改进优先级展开,而不是报一串产品名。
Agent 的计划模式是什么?如何把用户目标拆成步骤、工具调用和可恢复执行状态?
这题考 Agent 运行机制:计划模式不是让模型多想一会儿,而是把开放目标转成可执行、可观测、可重试、可恢复的任务状态机或工作流。
同题还出现在 1 个公司岗位
向量检索中常见相似度计算指标有哪些?余弦相似度、点积和欧氏距离如何选择?
这题考向量检索基础和工程选择:候选人要能解释 cosine、dot product、L2 的含义、适用前提、归一化关系,以及为什么指标要和 embedding 训练目标及索引配置一致。
Agent 调用服务端 API 工具的完整流程是什么?如何完成参数生成、鉴权、执行、错误处理和结果回填?
这题考 Agent 工具调用的工程链路:模型通常不直接访问业务 API,而是由宿主系统基于工具 schema、权限、参数校验、执行器、错误处理和结果回填来完成闭环。
同题还出现在 2 个公司岗位
LoRA 微调不收敛或输出格式异常时,如何从数据、模板、学习率、rank 和 alpha 排查?
这题考的是 LoRA 训练故障诊断能力:候选人要能把不收敛和输出格式失控拆成数据、模板、损失、超参、adapter 容量和评测回归几个层面逐步定位。
LoRA alpha 过强或过弱会带来什么影响,增量训练出现灾难性遗忘时如何排查和缓解?
这题考的是候选人是否理解 LoRA 增量缩放和遗忘之间的关系,并能从数据分布、训练策略、正则约束和回归评测上解决增量训练稳定性问题。
DPO 偏好样本中的 reward 或偏好维度应如何选择,如何保证对齐目标和训练稳定性?
这题考的是 DPO 数据和偏好目标设计:不是只会说 chosen/rejected,而是能把业务目标、偏好维度、样本构造、冲突处理、训练稳定和评测闭环讲清楚。
多模态大模型微调应如何设计数据、视觉编码器/投影层、指令模板、训练阶段和评测?
这题考的是多模态 LLM 微调的系统设计能力:候选人要能从任务目标出发,讲清数据、架构可训练部分、阶段化训练、模板一致性、指标和回归防护。
Agent 系统中的 skill(能力模块)应如何设计和实现?
这题考 Agent 能力模块的工程抽象,回答要说明 skill 的边界、契约、工具绑定、权限、测试、版本和失败处理。
同题还出现在 1 个公司岗位
RAG 项目里的召回排序链路如何设计,Embedding 召回、粗排、重排和答案生成各自承担什么职责?
这题考 RAG 的工程链路设计:不是只接一个向量库,而是要把查询理解、混合召回、粗排、重排、上下文拼装、生成约束和评测闭环讲成一条可上线的检索增强系统。
同题还出现在 3 个公司岗位
模型性能如何评估?
模型性能评估不能只报一个 accuracy。更稳的回答是先确定任务类型和业务目标,再区分离线指标、线上指标、鲁棒性指标和成本指标,最后说明数据切分、统计显著性和误差分析如何保证评估可信。
同题还出现在 1 个公司岗位
RAG 中检索文档正确但生成答案错误时,如何定位 Prompt、上下文组织、模型推理和后处理问题?
这题考的是 RAG badcase 的责任拆解:当正确证据已经被检索到,问题就不再主要是召回率,而要检查证据是否进入 prompt、是否被截断或排序淹没、指令是否约束模型使用证据、模型是否误读冲突信息、解码是否不稳定,以及后处理是否改坏答案。
RAG 需要跨多个文档综合回答时,如何做多跳召回、证据合并和冲突处理?
这题考的是多文档 RAG 的端到端设计能力:不能只说把更多 chunk 塞进上下文,而要能讲清问题拆解、多路召回、证据覆盖、去重合并、冲突处理、带引用生成和评估闭环。
Transformer 推理阶段为什么 KV Cache 只缓存 K 和 V,而通常不缓存当前步的 Q?
这题考的是自回归推理中 attention 计算复用的本质:历史 token 的 K/V 会在未来每一步被反复访问,而 Q 只属于当前查询 token,用完即可丢弃,所以缓存 K/V 能省重复计算,缓存 Q 通常没有收益。
Instruction Tuning 多轮对话训练中 loss mask 应如何设计,哪些 token 应参与损失?
这题考的是多轮 SFT 的 token 级训练目标设计:候选人要能说明 system/user/padding 通常不算 loss,assistant 答案 token 通常算 loss,并进一步讲清多轮全部 assistant turn、last-turn-only、label shift、packing 边界和模板一致性。
模型对齐后变得过于保守、经常拒答时,如何调整偏好数据、拒答策略和安全阈值?
这题考的是对齐训练中的 helpfulness 与 harmlessness 校准能力:候选人要能把过度拒答拆成数据标签、偏好目标、reward/judge 偏置、安全分类阈值和线上策略问题,并给出训练与评估闭环。
RAG Embedding 召回出现误判时,如何定位并改进?
这题考 RAG 中 embedding 召回误判的诊断和改进,回答要区分误召回与漏召回,并用标注集、近邻检查、负样本、混合检索、rerank 和阈值策略闭环优化。
同题还出现在 1 个公司岗位
为什么要使用旋转位置编码?
旋转位置编码(RoPE)的核心价值,是把位置信息以“旋转”的方式注入到注意力机制的 Query 和 Key 中,使模型在计算注意力分数时自然感知 token 之间的相对距离。相比直接相加的绝对位置编码,RoPE 更贴合 Transformer 的点积注意力结构,既能保留顺序信息,又能让相对位置关系在 QK 点积中显式出现。
同题还出现在 2 个公司岗位
大模型 RL 后训练中如何识别并缓解 reward hacking 和奖励坍缩?
这题考 RL 后训练的失效模式,回答重点是识别训练 reward 与真实质量背离,并用 reward 审计、约束、数据更新和独立评测缓解。
同题还出现在 2 个公司岗位
Agent 微调中如何选择和清洗训练样本,哪些样本质量问题最容易改变模型行为?
这题考 Agent 微调数据的样本选择与清洗能力。与普通 SFT 不同,Agent 样本不仅有问答文本,还包含意图、计划、工具选择、参数、工具结果、状态变化、安全边界和最终回复。回答要说明哪些样本值得训练、哪些噪声会改变模型行为,以及如何用指标验证。
同题还出现在 1 个公司岗位
从用户行为日志抽取 Agent 训练对话时,如何做归一化和事件抽象?
这题考从用户行为日志构造 Agent 训练对话的能力。关键不是把日志拼成聊天记录,而是做会话切分、事件抽象、状态归一、隐私脱敏、目标推断、轨迹标注和质量过滤,让低层行为事件变成可训练、可审计、可评估的 Agent 对话样本。
PPO clip 在 advantage 为正或为负时分别限制什么,为什么这样能稳定策略更新?
这题考 PPO clipped surrogate objective 的符号细节。好的回答要能从 r(theta)=pi_new(a|s)/pi_old(a|s) 和 advantage A 的正负出发说明:A 为正时,这个动作比预期好,PPO 限制新策略把它概率提高得过多,也就是限制 ratio 的上界;A 为负时,这个动作比预期差,PPO 限制新策略把它概率降低得过多,也就是限制 ratio 的下界。这样用保守目标抑制单步策略漂移,从而提升训练稳定性。
大模型后训练中,PPO 为什么通常被视为 on-policy,importance sampling 起什么作用?
PPO 通常被视为 on-policy,是因为它的训练样本来自当前或刚刚冻结的行为策略,更新只在这批新 rollout 附近做有限幅度的策略改进,而不是长期复用任意历史策略产生的数据。importance sampling 在 PPO 中主要通过新旧策略概率比修正采样策略和待优化策略之间的小偏差,使我们能用旧策略采到的样本估计新策略目标;但由于只修正动作概率、对状态分布偏移和大幅策略漂移无能为力,所以它不能把 PPO 变成真正意义上的通用 off-policy 算法。
BEVDet 这类纯视觉 BEV 感知算法如何通过 View Transformer 把图像特征转换到 BEV 空间?
这道题考察纯视觉 BEV 感知中从多相机图像特征到鸟瞰图特征的几何建模能力。好答案要讲清 BEVDet 的三段式链路:Image-view Encoder 提取每个相机的 2D 特征,View Transformer 结合深度分布、相机内外参和数据增强矩阵,把像素特征 lift 到三维 frustum,再 splat 或 pooling 到 ego 坐标系下的 BEV 网格,最后 BEV Encoder 在鸟瞰空间做融合和检测。回答边界应覆盖深度离散、特征加权、标定误差、分辨率取舍、遮挡和验证指标,不能把 View Transformer 误讲成普通 NLP Transformer。
DAPO、GSPO、GFPO 等 GRPO 变体分别试图解决哪些后训练问题?
这题考的是候选人是否能把 GRPO 变体放到后训练问题图谱里理解,而不是背算法名。好答案要先说明 GRPO 的基本形态:同一 prompt 采样一组回答,用组内相对奖励估计 advantage,减少显式 critic 需求;再说明 DAPO、GSPO、GFPO 分别主要针对大规模长推理 RL 中的训练稳定性、更新粒度和推理长度效率问题。由于这些算法较新,边界是只按公开论文和公开实现文档描述,不声称未公开训练配方,也不把不同团队的缩写含义混为确定事实。
推荐系统多路召回的候选分数能直接相加吗,如何做归一化、配额和融合?
这道题考察多路召回的融合意识。不同通道的原始分数通常没有同一语义:cosine、共现分、热度、规则 rank 和模型分不可直接相加。好答案要把归一化、排序融合、校准、配额、去重、多通道命中特征、通道贡献和线上指标串起来。
推荐召回中 Word2Vec 召回具体怎么做,训练样本和近邻检索如何设计?
这道题考察 item2vec 召回的完整链路。好答案要从行为序列构造、样本窗口、负采样、向量训练、ANN 建索引、线上 seed 扩展、过滤去重、融合排序和指标验证讲起,而不是只说用 Word2Vec 算相似 item。
同题还出现在 1 个公司岗位
推荐系统里的基于深度模型召回怎么做,如何与 ItemCF 或 Word2Vec 召回配合?
这道题考察深度召回的模型和工程边界。好的回答要说明双塔/DSSM/YouTube DNN 等模型如何学习 user/item 向量,如何用 ANN 服务大规模候选,如何与 ItemCF、Word2Vec 等通道互补,以及负样本、偏差、版本、索引和指标如何治理。
推荐排序阶段通常使用哪些特征,如何划分用户、物品、上下文和交叉特征并保证线上线下一致?
这道题考察推荐排序阶段的特征体系。好答案要把用户、物品、上下文和交叉特征讲清楚,并进一步说明统计特征的时间截断、实时/近线/离线更新、训练服务一致性、特征监控和模型指标,否则容易停留在简单枚举。
推荐系统中引入向量索引召回时,在线 serving 链路应该如何改造?
这道题考察的不是向量索引原理,而是把向量召回接入推荐在线 serving 后,链路、模块边界、延迟、降级、索引更新和实验评估应该怎样设计。回答要把它放在召回层讲清楚,并说明 query vector 如何生成、ANN 服务如何调用、候选如何回到后续粗排/精排。
同题还出现在 2 个公司岗位
大模型与 2020 年前传统模型的本质区别是什么?
这题考的是对大模型范式变化的理解:本质区别不只是参数更多,而是从任务专用模型转向大规模预训练、通用表示、自然语言交互、上下文学习和工程化治理并存的基础模型范式。
同题还出现在 1 个公司岗位
ViT 如何把 224x224x3 图像切成 patch 序列,sequence length 如何计算?
这题考 ViT 把图像切成 patch 后如何形成 token 序列,回答重点是 patch 数量、每个 patch 的展平维度、线性投影、位置编码和 CLS token。
同题还出现在 2 个公司岗位