02/01/2026 08:51

【AI】梁文鋒署名DeepSeek新論文,提出mHC新架構優化大模型性能

  DeepSeek團隊發布新論文,提出了一種名為mHC(流形約束超連接)的新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益。DeepSeek創始人梁文鋒也在作者名單中。

  論文公布了DeepSeek-V3在訓練和推理過程中,如何解決「硬件瓶頸」的方法:mHC通過將傳統Transformer的單一殘差流擴展為多流並行架構,並利用Sinkhorn-Knopp算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決了超連接在大規模訓練中因破壞恒等映射屬性而導致的數值不穩定和訊號爆炸問題。

  實證表明,mHC不僅解決了穩定性問題,且在大規模訓練中(如27B模型)表現出卓越的可擴展性。在n=4的擴展倍率下,僅增加了6.7%的訓練時間開銷,卻換來了顯著的性能提升。mHC為基礎模型的拓撲架構演進指明了方向。
《經濟通通訊社2日專訊》

【樂本健11月限時優惠!】 憑獨家優惠碼【ETN2511】,購物滿$500即送免費禮品► 了解詳情

專業版
HV2
精裝版
SV2
串流版
IQ 登入
強化版
TQ
強化版
MQ

etnet初心不變 風雨無阻 與你並肩投資路,立即加入成為etnet YouTube頻道會員!

獨家優惠【etnet x 環球海產】 用戶專享全場95折,特價貨品更可折上折,立即選購五星級酒店御用海鮮!

樂本健 x etnet健康網購 | 購物滿額即送免費禮品

大國博弈

回顧25 展望26

貨幣攻略

說說心理話

Watch Trends 2025

北上食買玩

Wonder in Art

理財秘笈

山今養生智慧

輕鬆護老

照顧者 情緒健康