|
10月20日のメディア報道によると、NVIDIAの最新の研究はAIの未来に革命を起こす可能性があり、同社の研究チームはNormalized Transformer (nGPT)と呼ばれる新しいニューラルネットワークアーキテクチャを提案している。 このアーキテクチャは、超球面上で表現学習を実行し、モデルの精度を維持しながら、大規模言語モデル (LLM) のトレーニング速度を最大 20 倍まで大幅に向上させることができます。 nGPT アーキテクチャの中核は、埋め込み、多層パーセプトロン (MLP)、注意行列、隠れ状態を含むすべてのベクトルを単位ノルムに正規化することにあります。 この正規化プロセスにより、入力トークンは超球面上を移動し、モデルの各レイヤーが変位を通じて最終的な出力予測に貢献します。 実験結果によると、nGPT ではトレーニング中に必要なステップ数が標準の Transformer モデルより 4 ~ 20 倍少なく、具体的な高速化はシーケンスの長さによって異なります。 たとえば、トレーニング速度は、1k コンテキストでは 4 倍、4k コンテキストでは 10 倍、8k コンテキストでは 20 倍向上します。 研究者らは、nGPT の最適化パスは超球面上の点から始まり、MLP と注意モジュールによって定義される変位を通じて最終出力予測に貢献すると指摘しています。 この方法は、トレーニング速度を向上させるだけでなく、モデルの安定性も向上させます。 |
AI の未来を書き換える可能性!NVIDIA の新しい nGPT はトレーニング速度を 20 倍向上させます。
関連するおすすめ記事
-
ポルシェ、電気自動車の人気が鈍化し販売が急落、計画を見直す
-
トヨタの幹部は、カリフォルニア州の電気自動車推進は不可能だと述べている。
-
報道によると、Apple は Vision Pro ヘッドセット用のサードパーティ製 Belkin ヘッドバンドを公式 Web サイトで 49.95 ドルで販売する予定だという。
-
Tmallは、ダブル11期間中のラルフローレン製品の返品率が高いという噂を否定しています。これは単なる伝聞であり、確認されていません。
-
NVIDIA の新しい RTX 50 シリーズ グラフィックス カードには、Micron GDDR7 メモリが搭載されています。
-
キッチン家電業界で初めて DeepSeek と提携した Robam Appliances は、自社開発の大規模モデルに最も強力な頭脳を導入しました。