Transformer作者团队开源DroPE技术 抛弃RoPE实现长上下文零样本扩展

Transformer架构的核心作者之一Llion Jones领导的Sakana AI研究团队开源了一项突破性技术DroPE,通过在推理阶段丢弃位置嵌入来实现长上下文的零样本扩展,无需昂贵的长上下文训练。这项技术被网友调侃为NoRoPE(没有旋转位置编码)。

当前最流行的位置嵌入方法是RoPE(旋转位置编码),但它在处理超出训练长度的文本时会出现性能急剧下降的问题。DroPE的创新思路是将RoPE当成临时的训练工具:在预训练阶段借助RoPE保证训练的稳定性和效率,为模型提供可学习的顺序感;到了推理阶段则大胆丢弃位置嵌入,并在原上下文长度下进行简短的重新校准。

实验结果令人印象深刻。在LongBench基准测试里,DroPE将基础SmolLM的平均得分提高了10倍以上。在NIAH任务评估中,DroPE模型的召回率高达74.92%,大幅超越了传统的RoPE缩放方法。即使在大规模的Llama2-7B模型上,仅使用0.5%的预训练预算进行重新校准,DroPE也能在长上下文问答和总结任务中展现出卓越性能。

重新校准的成本极低是DroPE的另一大优势。传统长上下文训练需要消耗大量算力和数据,而DroPE只需不到1%的预训练预算就能完成模型的长上下文适配。这意味着即使是资源有限的研究团队也能让现有模型具备处理超长文本的能力。

Sakana AI是由Llion Jones和前谷歌高级科学家David Ha创办的AI研究公司。Llion Jones是Transformer论文的八位作者之一,他的团队近年来在AI研究领域持续产出创新成果。DroPE的开源为整个AI社区提供了一种低成本的长上下文解决方案,有望推动大语言模型在更多需要处理长文档的场景中得到应用。

DroPE技术的开源为整个AI社区提供了一种低成本的长上下文解决方案。传统方法需要收集大量长文本数据并消耗巨额算力进行长上下文训练,而DroPE只需要在现有模型基础上进行极低成本的重新校准就能实现长上下文能力。这种思路的转变可能催生一系列基于类似理念的新技术,推动大语言模型在法律文档分析、学术论文综述、长篇代码理解等需要处理超长文本的场景中得到更广泛的应用。

Sakana AI作为一家专注于AI研究的创业公司,其研究方向一直以创新性和实用性著称。DroPE技术的开源体现了该公司开放共享的研究理念,也为全球AI研究者提供了一个强大的工具。在大模型训练成本日益攀升的今天,像DroPE这样能够以极低成本提升模型能力的技术具有极高的实用价值,有望被广泛采用。