最亮眼的是 MoE (混合专家)模型的性能提升,达到了6到11倍的加速。有开发者直接吐槽:“如果你把性能提升了2倍,说明你做了聪明的事;如果提升了10倍,说明你之前在做蠢事。”确实,v4 版本对 MoE 模型使用了非常简单的 for 循环处理专家模块,导致计算资源严重闲置。现在团队重写了这部分逻辑,并引入了更通用的自定义 kernel 方案。
10月10日,早期科技投资机构云启资本(下称“云启”)宣布发起年轻 AI 创业者专项支持计划—— Y Transformers 。该计划将联合中关村科学城、上海交大工研院、MiniMax、火山引擎、亚马逊云科技、小宿科技、十字路口、WaytoAGI、S创、Wteam等10余家行业生态伙伴 ...
这篇文章有何恺明和杨立昆两位大佬坐镇,不由得让人重视。核心发现是:Transformer可以在不使用任何归一化层的情况下,通过简单的Dynamic Tanh(DyT)操作实现同等甚至更好的性能。 训练深度神经网络时,每一层的输入的分布都在发生变化,这种现象被称为「 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果