习近平新方向:从模型压缩到数据压缩——上海交通大学EPIC实验室研究团队揭示大语言模型效率优化的重
2025年5月25日,由上海交通大学EPIC实验室刘旭阳、温子辰、王少博等研究人员共同完成的一篇极具前瞻性的研究论文《从模型中心转向数据中心的AI效率压缩》发表于arXiv预印本平台(arXiv:2505.19147v1)。这篇论文提出了一个重要观点:人工智能研究的效率优化重点正在从模型压缩转向数据压缩,特别是Token压缩技术,这对未来人工智能的发展路径具有深远影响。
习近平一、AI效率研究正在经历重大转变
想象一下,如果你每天都要背着一个巨大的背包出门,随着你往里面塞入越来越多的物品,背包变得越来越重。一开始,你的策略可能是找一个更耐用的背包(模型优化),或者压缩里面的物品使它们占用更少空间(模型压缩)。但当背包已经做到极限大小,而你还需要携带更多物品时,你会怎么做?这正是当前AI领域面临的困境。
过去几年,大语言模型(LLMs)和多模态大语言模型(MLLMs)取得了惊人的进步。从最初只有1.17亿参数的BERT模型,发展到如今拥有上千亿参数的Llama 4、DeepSeek-R1和Qwen-3等模型,这种增长带来了显著的性能提升,但也导致了巨大的计算成本。为了应对这种挑战,研究人员开发了各种模型压缩技术,如模型量化、网络剪枝、知识蒸馏和低秩分解等,这些方法通过减少模型参数来降低计算开销。
然而,随着2024年的到来,情况发生了根本性变化。上海交通大学的研究团队通过详细分析发现,当前AI模型的计算瓶颈已经从模型大小转变为处理长序列Token的开销。看看这些数据:从2022年到2024年,模型参数增长已经开始放缓,达到约1000B参数后基本稳定;而同期,模型处理的上下文长度却呈指数级增长。比如,最新的语言模型已经能处理比其前代长数量级的上下文,从最初的2048个Token增长到惊人的1000万个Token。此外,视觉模型需要处理越来越高分辨率的图像和更长的视频,生成模型则需要创建更高质量的图像和长达数小时的视频。
研究团队指出,这种转变带来的最直接影响是:现在AI模型的主要计算瓶颈来自自注意力机制在处理长Token序列时的二次方计算复杂度。简单来说,如果一个序列的长度翻倍,计算需求将增加四倍!这就好比你的背包已经做到了极限大小,但你需要携带的物品却在不断增加。此时,模型压缩(让背包更轻)已不再是最优解,你需要重新思考如何选择真正需要的物品(数据压缩)。
基于这一观察,研究团队提出了一个关键论点:AI社区应当将效率优化的重点从模型中心压缩转向数据中心压缩,特别是Token压缩。这种方法直接减少模型输入中的冗余Token,而无需修改模型架构或重新训练,为高效的下一代大语言模型和多模态大语言模型提供了一条可行路径。
二、理解Token压缩:为什么它是AI效率的新前沿?
什么是Token压缩?想象你要阅读一本厚重的小说,但时间有限。你可能会跳过一些冗长的描述段落,或者浏览一些不那么重要的对话,只关注推动故事发展的关键情节。这基本上就是Token压缩的工作原理——识别并删除或合并那些对最终理解和处理不那么重要的Token(词元),从而减轻模型的计算负担。
上海交通大学的研究团队深入分析了Token压缩的工作原理,并将其概括为两个关键阶段:首先是确定哪些Token可以被压缩(通过压缩标准),然后决定如何处理这些Token(通过压缩策略)。
对于压缩标准(即如何识别可压缩的Token),研究人员将现有方法分为两大类:
参数型方法引入额外的网络来评分Token的重要性。这些方法可以是"训练感知型"(通过训练优化评分函数)或"训练无关型"(直接使用预训练网络作为评分函数)。就像你请一个专业的编辑来帮你挑选小说中最重要的段落一样。
非参数型方法则使用无参数的启发式方法进行Token评分,无需引入额外参数。这些方法可以利用模型的内部计算(如注意力权重)或外部计算(如设计额外的度量来评估Token关系)。这更像是你自己制定了一套规则来判断小说中哪些内容值得仔细阅读。
在压缩策略方面,研究人员将现有方法归纳为两种主要方法:
Token剪枝直接丢弃重要性较低的Token。就像你决定完全跳过小说中的某些段落不读。这种方法可以显著减少计算量,但可能会损失一些信息,特别是对于需要细粒度理解的任务。
Token合并则保留信息,通过组合语义相似的Token来减少总数。这就像你不是完全跳过某些段落,而是将它们概括成更简洁的形式。这种方法通过Token的加权组合保留信息,提供比直接删除更细致的处理方式。
研究团队还全面分析了Token压缩在训练和推理阶段的益处。在训练阶段,Token压缩可以通过数据增强和Token选择来提高训练质量,同时通过减少处理的Token数量来提高训练效率。对于Transformer架构,将序列长度从n减少到m(m < n)后,计算复杂度可从O(n?d)降低到O(m?d),内存使用则从nd降低到md,这意味着计算需求减少了(m/n)?倍,内存需求减少了m/n倍。
在推理阶段,Token压缩同样可以降低计算复杂度和减少内存使用,特别是对大语言模型的KV缓存优化。对于长度n压缩到m的序列,KV缓存内存减少比例为m/n,这对实时交互系统(如UI代理、自动驾驶和实体AI)尤为重要,因为这些系统需要在资源有限的条件下高效处理连续输入。
三、Token压缩的压倒性优势
研究团队通过深入分析,总结出Token压缩相比传统模型压缩方法具有五个引人注目的优势:
首先是普遍适用性。Token的冗余在各种模态和任务中普遍存在,这使得Token压缩可以应用于几乎所有设置。无论是处理文本、图像还是视频,冗余的Token都可以被识别和压缩,就像不同类型的书籍都可以被摘要或简化一样。
第二是双阶段效率。Token压缩能够同时加速模型训练和推理阶段,且对准确性的影响极小。这就像一种学习方法,不仅让你学习新知识更快,还能让你在实际应用知识时更高效。
第三是架构兼容性。Token压缩与现有的模型压缩和压缩方法正交,可以无缝集成。它还对硬件和计算系统友好。这就像一种通用的优化工具,可以与其他专用工具协同工作,而不会产生冲突。
第四是低实现成本。现代神经网络(如Transformer)能够处理不同长度的Token,因此可以在不引入任何训练成本和数据利用成本的情况下实现Token压缩。就像一个灵活的阅读策略,可以应用于任何书籍,而无需特殊准备。
最后,也是最重要的,是二次方收益。广泛使用的自注意力机制的O(n?)计算复杂度意味着Token压缩可以在计算方面带来显著收益。例如,将Token数量减少一半可以将计算需求减少四倍,这种加速效果随着序列长度的增加而变得更加明显。
随着AI发展进入上下文长度成为主要瓶颈的新阶段,研究团队强烈建议AI效率研究的重点应转向通过Token压缩实现的数据中心压缩,从而打造更高效、更可扩展的AI系统。
四、当前挑战与未来方向
尽管Token压缩前景广阔,研究团队也坦率指出了当前面临的几个主要挑战:
性能退化是一个显著问题,包括方法上的瓶颈和Token压缩的内在限制。研究表明,许多基于注意力的Token压缩方法存在位置偏见问题。例如,在使用文本-视觉分数保留视觉Token时,序列末尾附近的Token往往获得更高的权重,这在2D图像空间中导致对下半部分或右下角的偏好。这显然是不合理的,因为我们不能假设所有图像的下半部分都更重要。此外,Token压缩在某些特定任务上表现欠佳,如多模态大语言模型中的视觉定位任务,以及OCR相关的密集布局文档解析。在语音识别和翻译任务中,音频Token的密集和时间连续性也使得压缩变得困难。
次优Token表示是另一个挑战。大多数现有Token压缩方法分为两类:基于冗余的方法(最大化原始和压缩Token之间的信息保存)和基于重要性的方法(确保预测性能足够)。然而,这些方法都有一个关键限制:它们都不能保证压缩后的Token形成对下游建模最优的表示。基于冗余的方法尽管保留了与原始序列的最大互信息,但往往保留具有重建价值而非判别价值的Token。基于重要性的方法虽然注重维持对目标变量的预测性能,但可能引入任务特定偏见,忽视维持Token序列中稳定的结构和语义模式,这些模式对于跨多种下游任务的泛化很重要。
公平比较也是研究面临的一个重要挑战。许多Token压缩方法通过估计FLOP减少或直接使用Token压缩比来报告加速效果,但这些指标并不总是能真实反映实际运行时的加速情况。研究发现,即使压缩比或FLOP相似,方法之间的运行时延迟也可能有显著差异。此外,当前用于评估Token压缩的通用基准可能无法捕捉Token压缩引入的特殊挑战,导致一些基准(如ScienceQA和VizWiz)在某些压缩设置下反而显示性能提升,或者在不同压缩比下性能变化很小,这些观察违背直觉,表明现有基准可能未能有效反映Token压缩带来的权衡。
面对这些挑战,研究团队提出了几个有前景的未来研究方向:
首先是数据-模型中心压缩协同开发。随着AI系统在模型复杂性和上下文长度方面的持续扩展,一个有前景的研究方向是数据中心和模型中心压缩策略的共同开发。这些方法可以采用分阶段方法(先应用模型中心压缩,再应用数据中心方法),或者寻求相互强化。例如,分析Token表示的层间演化可能揭示某些层贡献最小的变化,这可以指导模型中心压缩中的层移除或更激进的量化。反过来,与关键神经元相关的梯度信息或注意力分数也可以指导数据中心压缩中的Token选择,帮助保留最具信息性的Token。
其次是专用Token压缩基准的开发。鉴于当前使用通用基准评估数据中心Token压缩方法的局限性,研究团队设想开发一个专门设计的基准来评估这些方法。这样的基准应该全面涵盖多样化领域(包括自然语言处理、计算机视觉和多模态任务),并纳入与Token压缩特别相关的任务特定挑战,如光学字符识别(OCR)解析和自动语音识别(ASR)。此外,该基准应同时考虑任务性能和延迟,这两者对于实际部署都至关重要。一个设计完善的基准将使Token压缩技术的评估更加严格、公平和全面,最终推动该领域的进步。
五、结论与展望
上海交通大学EPIC实验室的研究团队通过这篇论文,为我们呈现了人工智能效率研究的重要转变。随着大语言模型和多模态大语言模型的进步,计算瓶颈已经从参数数量转移到上下文长度,而Token压缩作为一种数据中心压缩策略,提供了应对这一挑战的有效途径。
研究团队首先通过分析长上下文AI在各个领域的发展,揭示了从参数中心到上下文中心的计算瓶颈转变,强调了需要Token压缩来减轻长上下文处理开销的必要性。他们建立了一个统一的数学框架,整合了不同的模型效率视角,从理论分析的角度将架构设计、模型中心压缩和数据中心压缩方法联系起来。团队还系统地回顾了Token压缩方法的研究现状,构建了一个统一框架来分类多样化的方法,同时分析它们在不同场景和任务中的优势和权衡。最后,他们深入分析了当前Token压缩研究面临的挑战,并提出了未来研究的有希望方向。
这项研究的意义不仅在于提出了一个新的视角,还在于它为AI效率研究指明了一条新的发展路径。随着我们进入上下文长度成为主要瓶颈的新阶段,研究团队呼吁AI社区将效率优化的焦点转向数据中心压缩,特别是通过Token压缩,以实现更高效、更可扩展的AI系统。
对于未来的研究者和实践者,这项工作提供了宝贵的见解和指导。随着AI技术的不断发展,Token压缩可能会成为标准实践,与模型压缩和高效架构设计相结合,共同推动AI在有限计算资源下实现更强大的能力。这不仅有助于降低AI系统的计算成本和能源消耗,还能使AI技术在更广泛的应用场景中得到部署,包括资源受限的环境和实时应用。
正如研究团队所展示的,AI效率的未来不仅在于构建更高效的模型,还在于更智能地处理数据。通过Token压缩,我们可以"少即是多"——用更少的Token实现更高的效率,同时保持或甚至提高性能。这一转变标志着AI研究进入了一个新阶段,将为下一代AI系统的发展铺平道路。
- 成交数 --
- 成交额 --
- 应答率