谷歌新架构挑战Transformer:Miras框架与新型序列模型崛起

日期:2025-06-09 20:36:19 / 人气:57


在人工智能领域,谷歌一直是创新的引领者。近日,谷歌团队提出了一种全新的架构——Miras框架,并基于此构建了Moneta、Yaad和Memora三种新型序列模型,在多个任务上超越了Transformer,引发了广泛关注。

Miras框架:重新定义AI架构设计
核心概念:注意力偏向与保留门
谷歌团队受人类认知中的“关联记忆”与“注意力偏向”概念启发,提出了统一视角,将Transformer与RNN看作是优化某种“内在记忆目标”(即注意力偏向)的关联记忆系统。他们发现几乎所有现代序列模型的底层学习过程都可归结为关联记忆机制,遗忘机制本质上是注意力偏向的正则化操作,不同模型的差异可用“注意力偏向 + 保留机制”解释。

在此基础上,谷歌团队整合出了Miras框架,提供了四个关键设计维度来指导下一代序列模型的构建,包括记忆架构、注意力偏向、保留门控和记忆学习算法。

解决现有模型问题
现有的深度学习架构中的遗忘机制存在对异常值敏感、不支持可调节的保留策略、无法应对复杂上下文需求等问题。Miras框架提出的“保留”概念替代“遗忘”,并提供了全新的替代保留门控,帮助平衡学习新概念和保留先前学到的概念。同时,将现有模型的遗忘机制重新解释为针对注意力偏向的ℓ₂正则化,为解决现有问题提供了新的思路。

三种新型序列模型:各有优势,超越Transformer
Moneta:语言建模表现出色
Moneta在语言建模任务中PPL指标提升23%,它采用可定制的ℓp/ℓq范数来灵活控制记忆更新的精度,专注于记忆更新中的可定制精度。

Yaad:常识推理能力领先
Yaad的常识推理准确率达89.4%,超越Transformer 7.2%。它使用Huber损失和自适应更新机制来保持模型的稳定性,具备抗噪和抗极端值能力。

Memora:记忆密集型任务优势明显
Memora在记忆密集型任务召回率提升至91.8%,它通过KL散度和Softmax更新方法,确保记忆在合理范围内波动,实现了稳定且规范的记忆控制。

在多个任务中,这三种新模型都展现出了超越现有最强模型的能力,在语言理解、常识推理、发现罕见事实以及长文本中保留细节信息等任务上表现优异。

实验验证:性能优势显著
语言建模和常识推理
在语言建模中的困惑度以及常识推理任务中,Miras的三个变体都优于包括Transformer++、现代线性递归模型和混合方法在内的全部基准方法。即使在混合模型的比较中,三个变体也取得了更好表现。

扩展能力评估
在上下文长度增加和模型大小变化的实验中,Miras的三个变体均展现出优于当前最先进基准模型的扩展能力。更强表达能力的记忆结构和保留门及注意力偏向的设计,有助于更高效地管理固定容量的记忆。

大海捞针任务
在“大海捞针”任务中,所有模型变体都以显著优势超过了所有基准模型。在处理合成噪声数据时,Moneta的表现优于其他模型,说明

作者:杏彩体育




现在致电 xylmwohu OR 查看更多联系方式 →

COPYRIGHT 杏彩体育 版权所有