语言模子偏远偷懒？新钻研：高下文过长，模子会略过中间不看

2024-11-15 09:24:16 分类：时尚阅读(8165)

机械之心编译

编纂：Panda

语言模子：过长我不看。语言远偷

大型语言模子大实用途，模偏模在妄想 prompt 方面，懒新略过人们个别建议为语言模子提供详尽的钻研中间使命形貌以及布景信息。

近期的高过长一些语言模子有能耐输入较长的高下文，但它事实能多好地运用更长的下文高下文？这一点却相对于少有人知。

克日，语言远偷斯坦福大学、模偏模加州大学伯克利分校以及 Samaya AI 的懒新略过钻研者宣告了一篇实证研品评辩说文，探究了这个下场。钻研中间

论断使人意外：假如高下文过长，高过长语言模子会更关注其中的下文先后部份，中间部份却简直被略过不看，语言远偷导致模子难以找到放在输入高下文中部的模偏模相关信息。

论文链接：https://arxiv.org/pdf/2307.03172.pdf

他们对于多种差距的懒新略过开源（MPT-30B-Instruct、LongChat-13B (16K)）以及闭源（OpenAI 的 GPT-3.5-Turbo 以及 Anthropic 的 Claude）的语言模子妨碍了比力试验 —— 试验中需要模子取患上并运用输入高下文中的信息。

钻研者首先试验了多文档问答，该使命需要模子基于多个文档妨碍推理，以找到相关信息并将其用于回覆给定下场。这个使命模拟了检索增强式天生使命，其是良多商用天生式搜查以及问答应用（如 Bing Chat）的根基。在试验中，他们的做法是修正输入高下文长度以及输入高下文中相关信息的位置，而后比力比力输入服从的展现。

更详细地说，钻研者经由向输入高下文削减更多文档来增大输入高下文的长度（相似于在检索增强式天生使掷中检索更多文档）；以及经由更正输入高下文中文档的挨次，将相关信息部署在高下文的收尾、中间或者结尾，从而更正高下文中相关信息的位置。

试验中，钻研者审核到，随着相关信息位置的变更，模子功能泛起出清晰的 U 型趋向，如图 1 所示。也便是说，当相关信息出如今输入高下文的收尾或者开始时，语言模子的功能最高；而当模子必需取患上以及运用的信息位于输入高下文中部时，模子功能会清晰着落。举个例子，当相关信息被部署在其输入高下文中间时，GPT3.5-Turbo 在多文档下场使命上的功能劣于不任何文档时的情景（即闭卷配置；56.1%）。此外，钻研者还发现，当高下文更永劫，模子功能会稳步着落；而且装备有高下文扩展的模子并不用定就更长于运用自己的高下文。

既然已经知道语言模子在多文档问答使掷中难以检索以及运用相关信息，那末咱们不禁要问：语言模子事实能在多大水平上从输入高下文中检索信息？

钻研者经由一个分解的键 - 值检索使命钻研了这一下场。该使命被妄想成一个最小化的测试平台，用于检测从输入高下文中检索出相立室的 token 的基先天力。

在此使掷中，钻研者会向模子提供一个 JSON 格式的「键 - 值」对于会集，而后要求模子返回与特定键分割关连的值。与多文档问答使命相似，键 - 值检索使命也应承对于输入高下文的长度（削减更多键 - 值对于）以及相关信息的位置妨碍妨碍比力变更。钻研者在试验中审核到了相似的 U 型功能曲线，即当立室的 token 出如今输入高下文中部时，良多模子就难以检测出它们。

为了清晰语言模子难以取患上以及运用输入高下文中部位置的信息的原因，钻研者合成了模子架构（仅解码器以及编码器 - 解码器）、查问感知型高下横蛮（query-aware contextualization）以及指令微调的熏染。

他们发现，当评估时的序列长度在磨炼时所用的序列长度规模内时，对于输入高下文中相关信息位置的变更，编码器 - 解码器模子是相对于安妥的；但假如评估时的序列长度长于磨炼时的，那末模子功能会泛起出 U 型特色。

此外，查问感知型高下横蛮（将查问放在文档或者键 - 值对于以前以及之后）能让模子可能欠缺地实施该分解键 - 值使命，但根基不会修正多文档问答使掷中泛起的趋向。尚有，致使是根基语言模子（即不指令微调）也会随输入高下文中相关信息的位置变更而泛起出 U 型功能曲线。

最后，为了更好地清晰「向输入高下文削减更多信息」与「削减模子推理所用的内容量」之间的掂量，钻研者妨碍了一个案例钻研。该钻研基于检索器 - 浏览器模子在凋谢域问答使命上的展现。相较于比力式的多文档问答使命虚验（高下文总是会搜罗偏偏一个用于问答下场的文档），在凋谢域问答使掷中，可能会有多个或者零个文档搜罗谜底。

钻研者发现，当经由检索维基百科往返覆 NaturalQuestions-Open 中的查问时，模子功能在检索器召回率趋于晃动以前良久就已经饱以及，这表明模子无奈实用地运用格外的检索文档 —— 运用逾越 20 个检索文档仅能稍微后退功能（对于 GPT-3.5-Turbo 是 ∼1.5%，对于 claude-1.3 为 ∼1%）。

部份来说，这份钻研能辅助人们更好地清晰语言模子是若何运用输入高下文的，并为未来的长高下文模子引入了新的评估协议。为了增长未来的相关钻研，钻研者放出了代码以及评估数据，请碰头：https://github.com/nelson-liu/lost-in-the-middle

为甚么语言模子难以残缺运用其输入高下文？

在多文档问答以及键 - 值检索试验上的服从表明，当语言模子需要从长输入高下文的中部取患上相关信息时，模子功能会清晰着落。为了清晰原因，钻研者合成了模子架构（仅解码器以及编码器 - 解码器）、查问感知型高下横蛮以及指令微调的熏染。

模子架构的影响

为了更好地清晰模子架构的潜在影响，钻研者比力了仅解码器模子以及编码器 - 解码器语言模子。

试验中运用的详细模子为 Flan-T5-XXL 以及 Flan-UL2 。Flan-T5-XXL 的磨炼运用了序列长度为 512 token 的序列（编码器息争码器）。Flan-UL2 一起头运用 512 token 长度的序列磨炼（编码器息争码器），但之后又在 1024 token 长度的序列上预磨炼了格外 10 万步（编码器息争码器），而后妨碍了指令微调 —— 其编码器在 2048 token 长度的序列上微调，解码器的序列长度则为 512 token 。可是，由于这些模子运用相对于位置嵌入，因此它们的判断能耐（原则上）可能逾越这些最大高下文长度 ——Shaham et al. (2023) 发现当序列长度为 8000 token 时，这两个模子都能取患上不错的展现。

图 11 并排揭示了仅解码器模子以及编码器 - 解码器模子的功能展现。当 Flan-UL2 评估时的序列长度在其磨炼时的 2048 token 高下文窗口规模内时，输入高下文中相关信息的位置变更能患上到安妥的应答。而当评估时的序列长度逾越 2048 token 时，假如相关信息位于输入高下文中部，那末 Flan-UL2 的功能会开始着落。Flan-T5-XXL 揭示出的趋向相似 —— 假如相关信息在输入高下文中部，那末更长的输入高下文会导致功能着落更多。

钻研者预料编码器 - 解码器模子概况能更好地运用其高下文窗口，由于它们的双向编码器让它们可能在未来文档的高下文中处置每一个文档，这概况能提升文档之间的相对于紧张性估量。

查问感知型高下横蛮的影响

试验中，钻研者的做法是将查问（即要回覆的下场或者要检索的键）放在数据（即文档或者键 - 值对于）之其后处置。由此，当对于文档或者键 - 值对于妨碍高下横蛮时，仅解码器模子无奈顾及查问 token ，由于查问只会出如今 prompt 开始而仅解码器模子在每一个光阴步骤只能关注以前的 token。

另一方面，编码器 - 解码器模子运用了双向编码器来高下横蛮输入高下文，这彷佛能愈加安妥地应答相关信息的位置变更 —— 钻研者预料这不断不雅论断概况也能用于提升仅解码器模子的功能，做法是将查问同时放在数据的前面以及前面，从而实现文档或者键 - 值对于的查问感知型高下横蛮。

钻研者发现，查问感知型高下横蛮能极大提升模子在键 - 值检索使命上的展现。举个例子，当运用 300 个键 - 值对于妨碍评估时，GPT-3.5-Turbo (16K)（运用了查问感知型高下横蛮）的展现堪称欠缺。比力之下，假如不查问感知型高下横蛮，其在同样配置下的展现最低为 45.6%。

比照之下，在多文档问答使命上，查问感知型高下横蛮的影响很小。特意指出，当相关信息位于输入高下文的最开始时，它可能后退功能，但在其余配置中会稍微飞腾功能。

指令微调的影响

指令微调是指在初始的预磨炼之后，语言模子还会运用一个指令以及照应数据集妨碍把守败落调。在这种把守式的指令微调数据中，使命尺度以及 / 或者指令个别部署在输入高下文的收尾，这可能会导致经由指令微调的语言模子为输入高下文的收尾给予更多权重。

为了更好地清晰指令微调的潜在影响，钻研者比力了 MPT-30B-Instruct 与其根基模子 MPT-30B（未经指令微调）在多文档问答使命上的功能展现。

图 13 揭示了 MPT-30B-Instruct 以及 MPT-30B 在多文档问答使命上的功能随输入高下文中相关信息的位置的变更。钻研者惊惶地发现，MPT-30B-Instruct 以及 MPT-30B 都揭示出了 U 型趋向。尽管 MPT-30B-Instruct 的相对于展现优于 MPT-30B ，但它们的部份功能趋向颇为相似。

着实以前已经有钻研发现语言模子更倾向于近期的 token（即输入高下文的收尾）。这种对于近期 token 的偏好个别表如今预料不断文本的下一个词的语境中，此时语言模子只能从长程信息中取患上少少的短处。比照之下，这里的试验服从表明，当 prompt 是指令格式的数据时，语言模子可能运用更长程的信息（即输入高下文的收尾）。钻研者预料语言模子是从相似格式的数据中学习了这些高下文，而这些数据来自预磨炼时见过的收集文本。

高下文更多就总是更好吗？一个基于凋谢域问答的案例钻研

在实际中，在输入高下文长度方面每一每一存在一个掂量 —— 假如给经由指令微调的语言模子输入更多信息，可能有助于其在卑劣使命上的功能，但也会削减模子需要处置的内容量。就算一个语言模子可能处置 1.6 万个 token ，那末假如真的为其提供这么多 token，那会真的实用吗？这个下场的谜底是：由卑劣使命抉择。由于这取决于所削减高下文的边缘价钱以及模子实用运用长输入高下文的能耐。为了更好地清晰这一掂量，钻研者在 NaturalQuestions-Open 上妨碍了凋谢域问答的案例钻研。

他们运用的模子接管了尺度的检索器 - 浏览器配置。一个检索零星（Contriever，基于 MS-MARCO 微调患上到）从 NaturalQuestions-Open 取用一个输入查问，而后返回 k 个维基百科文档。为了在这些检索到的文档上调节经由指令微调的语言模子，钻研者将它们搜罗到了 prompt 中。他们评估了检索器召回率以及浏览器精确度（任何带诠释的谜底是否出如今预料输入中）随检索出的文档数 k 的变更情景。钻研者运用了 NaturalQuestions-Open 的一个子集，其中长谜底是一个段落（而不是表格或者列表）。

图 14 给出了凋谢域问答的试验服从。可能看到，在检索器功能趋于晃动以前良久，浏览器模子的功能就早已经饱以及，这表明浏览器不实用地运用格外的高下文。运用逾越 20 个检索文档只能稍微提升浏览器功能（对于 GPT-3.5-Turbo 是 ∼1.5%，对于 Claude 为 ∼1%），但却清晰提升了输入高下文长度（由此延迟以及老本都大幅提升）。