DeepSeek推出NSA機制提升長上下文訓練與推理效率

WEEX 唯客博客， PANews 2月18日消息，DeepSeek宣布推出NSA（稀疏注意力機制），該機制與硬體高度一致且支援本機訓練，旨在實現超快速的長上下文訓練和推理。透過針對現代硬體的最佳化設計，NSA在加速推理速度的同時顯著降低預訓練成本，且不會影響模型效能。根據官方介紹，NSA在通用基準測試、長上下文任務以及基於指令的推理中表現優異，與完全注意力模型相比表現相當甚至更佳。 WEEX交易所官網：https://www.weex.com