6 月 3 日音讯 ,英伟科技媒体 marktechpost 昨日(6 月 2 日)发布博文,达协报导称英伟达联合麻省理工学院(MIT)、作推香港大学 ,英伟协作推出 Fast-dLLM 结构 ,达协大幅提高分散模型(Diffusion-based LLMs)的作推推理速度。
分散模型被认为是英伟传统自回归模型(Autoregressive Models)的有力竞赛者 ,选用双向注意力机制(Bidirectional Attention Mechanisms),达协理论上能经过同步生成多个词元(Multi-token Generation)加快解码进程。作推
不过在实践使用中,英伟分散模型的达协推理速度往往无法比美自回归模型,每次生成过程都需求重复核算悉数注意力状况 ,作推导致核算成本昂扬。英伟此外,达协多词元同步解码时 ,作推词元间的依靠联系易被损坏 ,生成质量下降 ,让其难以满意实践需求 。
征引博文介绍,英伟达组成的联合团队为处理上述瓶颈