DeepSeek團隊發布新論文,提出了一種名為mHC(流形約束超連接)的新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益。DeepSeek創始人梁文鋒也在作者名單中。
論文公布了DeepSeek-V3在訓練和推理過程中,如何解決「硬件瓶頸」的方法:mHC通過將傳統Transformer的單一殘差流擴展為多流並行架構,並利用Sinkhorn-Knopp算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決了超連接在大規模訓練中因破壞恒等映射屬性而導致的數值不穩定和訊號爆炸問題。
實證表明,mHC不僅解決了穩定性問題,且在大規模訓練中(如27B模型)表現出卓越的可擴展性。在n=4的擴展倍率下,僅增加了6.7%的訓練時間開銷,卻換來了顯著的性能提升。mHC為基礎模型的拓撲架構演進指明了方向。
《經濟通通訊社2日專訊》
【樂本健11月限時優惠!】 憑獨家優惠碼【ETN2511】,購物滿$500即送免費禮品► 了解詳情
























