WEEX 唯客博客, PANews 2月18日消息,DeepSeek團隊近日發布了一篇題為《原生稀疏注意力:硬體對齊且可原生訓練的稀疏注意力機制》的技術論文,介紹了他們提出的NSA(Natively Sparse Attention)機制。 NSA結合了演算法創新和硬體優化,旨在實現高效的長文本建模。其核心創新包括: 1. 動態分層稀疏策略,結合粗粒度的令牌壓縮與細粒度的令牌選擇,以保留全域上下文資訊與局部精確度; 2. 透過平衡算術強度的演算法設計和現代硬體最佳化,顯著加速計算; 3. 支援端到端訓練,減少預訓練計算成本,同時維持模型效能。 實驗結果表明,NSA在長文本任務和指令推理等領域表現優異,尤其在64k長度的序列處理中,實現了解碼、前向傳播和反向傳播的顯著加速。 WEEX交易所官網:https://www.weex.com
DeepSeek發布《原生稀疏注意力:硬體對齊且可原生訓練的稀疏注意力機制》論文
Previous: Strategy上週未進行任何股票出售或比特幣購買操作