Transformer Models - 搜索 News

非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1

Mamba 架构的大模型又一次向 Transformer 发起了挑战。 Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来，Mamba 便成为了 Transformer 的强有力竞争对手。此后，采用 Mamba 架构的模型不断出现，比如 Mistral 发布的首个基于 Mamba 架构的开源大模型 ...

36氪

Mamba再次挑战霸主Transformer，首个通用Mamba开源大模型一鸣惊人

Falcon Mamba 7B有什么特别之处？ TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天，阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型 ...

新浪网

盘一盘，2017年Transformer之后，LLM领域的重要论文

这两天 Andrej Karpathy 的最新演讲在 AI 社区引发了热烈讨论，他提出了「软件 3.0」的概念，自然语言正在成为新的编程接口，而 AI 模型负责执行具体任务。 Karpathy 深入探讨了这一变革对开发者、用户以及软件设计理念的深远影响。他认为，我们不只是在使用新 ...

雷锋网

手把手教你用 Transformers 和 Tokenizers 从头训练新语言模型

导语：如何从头开始训练自己的语言模型？在过去的几周里，我们对 transformers 和 tokenizers 库进行了一些改进，目的是让从头开始训练新的语言模型变得更加容易。在本文中，我们将演示如何用世界语训练一个「小」模型（84 M，6 个层，768 个隐藏层，12 个注意 ...

新浪网

ICLR 2025 Oral｜差分注意力机制引领变革，DIFF Transformer攻克长序列建模 ...

近年来，Transformer 架构在自然语言处理领域取得了巨大成功，从机器翻译到文本生成，其强大的建模能力为语言理解与生成带来了前所未有的突破。然而，随着模型规模的不断扩大和应用场景的日益复杂，传统 Transformer 架构逐渐暴露出缺陷，尤其是在处理长 ...

腾讯网

DeepSeek最新论文：直指Transformer要害，让AI学会翻“字典”了

今日凌晨，DeepSeek 在 GitHub 上发布了一项代号为“Engram”的最新研究成果，并同步上传了题为Conditional Memory via Scalable Lookup: A New Axis of Sparsity for ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果