长上下文扩展技术如 YaRN 应如何评测效果，而不只看最大上下文长度？｜小米算法面经解析

60 秒回答模板

评测 YaRN 这类长上下文扩展技术，我不会只看模型能塞多少 token，而会看长上下文里是否真正可用。第一层是基础可用性，比如不同长度下的 perplexity、显存、吞吐和延迟；第二层是定位能力，用 needle-in-a-haystack 或 passkey retrieval 看模型能否在不同位置找回关键信息，尤其是中间位置；第三层是任务能力，用长文 QA、多文档对比、跨段多跳推理、长代码理解来测是否能综合信息；第四层是鲁棒性，看噪声、干扰信息、重复信息和位置变化是否影响答案；第五层是回归测试，确认长上下文扩展没有损害短上下文任务。最终要同时报告准确率、位置敏感性、长度曲线、延迟成本和失败样例。

考点 从 4K 到 128K 的长度评测曲线

难度 真实面经题

回答目标 评测长上下文真实效果

深入解析

最大长度不是效果指标

长上下文扩展能让模型接受更多 token，但接受不代表理解。评测要回答三个问题：长文本放进去是否稳定、关键信息能否被找回、多处信息能否被综合。只报告 64K 或 128K 上下文长度，没有说明模型在这个长度下是否可用。

先做基础性能曲线

需要在不同上下文长度下测 perplexity 或 loss 变化、显存占用、prefill 时间、decode 延迟和吞吐。YaRN 这类方法涉及位置编码外推或插值，可能在长度变大时逐步退化，所以要看曲线，而不是只看一个终点。

用检索任务测找得到

Needle-in-a-haystack、passkey retrieval 适合测试模型能否从长文本中定位特定事实。评测时要把关键信息放在开头、中间、结尾不同位置，观察 lost-in-the-middle 问题。这个层面能暴露模型是否只是读了最近上下文。

用真实任务测用得好

长上下文价值不止是找一句话，还包括长文问答、多文档摘要、跨章节对比、合同审阅、长代码理解和多跳推理。评测要要求模型引用多个位置的信息，避免模型只靠局部片段或常识回答。

看鲁棒性和位置偏差

长文本中常有噪声、重复段落、相似实体和干扰事实。好的评测要改变证据位置、加入干扰项、改变问题表述，观察答案是否稳定。否则模型可能在简单 needle 任务上表现好，但真实文档中容易被干扰。

必须做短上下文回归和成本评估

长上下文扩展可能影响短上下文能力，也会增加 prefill 成本和显存压力。上线前要比较短任务准确率是否下降、长请求是否拖慢服务、单位请求成本是否可接受。最终结论应是质量、延迟、成本和稳定性的综合判断。

易错点

只回答 YaRN 是长上下文技术，没有说明如何评测。
把最大上下文长度当成唯一指标，忽略质量和成本。
只测 passkey，不测真实长文 QA、多跳和干扰场景。
没有关注 lost-in-the-middle，默认模型能平均利用所有位置。
不做短上下文回归，可能引入新能力但损害原能力。
只报告准确率，不报告延迟、显存、吞吐和单位成本。

面试官追问

Needle-in-a-haystack 通过了就说明长上下文好吗？

不能。它只能说明模型在特定设置下能找回信息，还需要测多文档推理、干扰鲁棒性、真实任务和成本。

为什么要测短上下文回归？

长上下文扩展可能改变位置编码行为或训练分布，如果短任务能力下降，整体模型体验可能变差。

长上下文和 RAG 怎么取舍？

长上下文适合需要保留全文结构和跨段推理的任务；RAG 适合大规模知识库、动态知识和成本敏感场景。两者也可以结合，先检索压缩再放入长上下文。

如何评估 lost-in-the-middle？

把关键证据放在不同相对位置，固定问题和上下文长度，比较命中率和答案质量。如果中间位置显著差，就说明存在位置偏差。

评测报告里最重要的输出是什么？

不是一个最高长度数字，而是长度-质量曲线、位置敏感性、任务准确率、失败案例、延迟和成本曲线。