|
2 月 25 日、昨日の Flash MLA のオープンソース リリースに続き、DeepSeek は本日、MoE モデルのトレーニングと推論のための初のオープンソース EP 通信ライブラリである DeepEP をリリースしました。 DeepEPは、MoE(Hybrid Expert)モデルの学習と推論のためのEP(Expert Parallelism)通信ライブラリです。すべてのGPUコアに対して高スループットと低レイテンシを提供し、MoEスケジューリングおよびコンポジションとしても知られています。このライブラリは、FP8を含む低精度演算もサポートしています。 一方、DeepEPは、NVLink(NVIDIAが開発した高速相互接続技術で、主にGPU間の通信で帯域幅の向上とレイテンシの低減に利用される)からRDMA(リモート・ダイレクト・メモリ・アクセスで、ノード間の効率的な通信に利用されるネットワークデータ転送技術)まで、非対称帯域幅転送シナリオに深く最適化されています。高いスループットを提供するだけでなく、トレーニングと推論タスクの両方における高スループット性能を考慮し、SM(ストリーミング・マルチプロセッサ)の台数制御もサポートしています。 レイテンシに敏感な推論デコードのために、DeepEPは低レイテンシカーネルとPure RDMAを搭載し、レイテンシを最小限に抑えます。また、このライブラリは、SMリソースを消費することなく、通信計算をオーバーラップさせるためのフックベースの手法も導入しています。 DeepSeek は、DeepEP の実装が DeepSeek-V3 の論文と若干異なる可能性があると述べています。 DeepSeek は、DeepEP の実際のパフォーマンスもリストします。 標準カーネルはH800(NVLinkの最大帯域幅は約160 GB/秒)でテストされました。各デバイスはCX7 InfiniBand 400 Gb/秒 RDMAネットワークカード(最大帯域幅は約50 GB/秒)に接続され、DeepSeek-V3/R1の事前学習設定(バッチあたり4096トークン、7168個の隠れ層ユニット、最初の4グループ、最初の8個のエキスパート(モデル)、FP8形式のスケジューリング、BF16形式のマージ)に従って実行されました。 低レイテンシカーネルはH800でテストされました。各H800はCX7 InfiniBand 400 Gb/s RDMAネットワークカード(最大帯域幅約50 GB/s)に接続され、DeepSeek-V3/R1の標準的な実稼働環境設定(バッチあたり128トークン、7168個の隠れ層ユニット、最初の8つのエキスパート(モデル)、FP8形式でスケジュール設定、BF16形式でマージ)に従って実行されました。 DeepEP ランタイム環境の要件: Hopper GPU (将来的にはさらに多くのアーキテクチャやデバイスをサポートする可能性があります) Python 3.8以上 CUDA 12.3以上 PyTorch バージョン 2.1 以上 NVLink は内部ノード通信に使用されます。 ノード間通信用のRDMAネットワーク |
DeepSeek オープンソース コード、パート 2: GPU 通信を最適化する DeepEP 通信ライブラリ。
関連するおすすめ記事
-
Google: 同社の新しいコードの4分の1以上は人工知能によって生成されています。
-
雷軍氏は新車の詳細を明らかにした。SU7 Ultraには、スポーツカーの中で最大直径のレーシンググレードのカーボンセラミックブレーキディスクが装備されている。
-
バイトダンスは、Honorの元CEOである趙明氏が同社に入社し携帯電話事業を率いるという報道を否定した。
-
グーグルが武器となるAIを開発しないという誓約を撤回した決定は物議を醸しており、元幹部のアンドリュー・ン氏が支持を表明した。
-
速度制限の解除は厳禁!北京市市場監督局が電動自転車メーカーと販売業者を招集し、協議。
-
2024年胡潤長者番付:張一鳴が純資産3500億元で中国一の富豪に、宗富麗が女性一の富豪に。