|
最近、AI企業DeepSeekは、海外のソーシャルメディアプラットフォームにおいて、ネイティブスパースアテンション(NSA)メカニズムの研究に焦点を当てた技術論文を発表しました。この論文は、研究内容の革新性だけでなく、意外な著者が参加していることからも、業界で大きな注目を集めています。 論文の筆頭著者である袁静阳(ユアン・ジンヤン)氏は、DeepSeekでのインターンシップ中にこの研究を完了しました。これは、彼自身とDeepSeek双方にとって大きな成果です。驚くべきことに、DeepSeekの創設者である梁文鋒氏もこの論文の著者として最後から2番目に名を連ねており、業界内で大きな議論を巻き起こしました。 論文の要約では、DeepSeekチームが次世代の大規模言語モデルにおけるロングコンテキストモデリングの重要性を認識していたことが指摘されています。しかしながら、既存の標準的なアテンション機構の複雑さは、シーケンス長が長くなるにつれてパフォーマンス向上のボトルネックとなります。NSA機構はまさにこの問題に対処するために提案されました。 NSA は長いシーケンスを効率的に処理できるため、モデルは書籍全体、コード リポジトリ、長文の対話などの大規模なデータを直接処理することができ、ドキュメント分析、コード生成、複雑な推論などの分野での大規模言語モデルの適用範囲が大幅に拡大します。 さらに、NSAは最新のハードウェア向けに最適化された設計を採用しており、推論速度の向上だけでなく、モデルのパフォーマンスを維持しながら事前学習コストも削減します。一般的なベンチマーク、長文タスク、指示ベースの推論において、NSAのパフォーマンスは、完全な注意ベースのモデルと同等か、それを上回ります。 公開情報によると、NSAは長文テキストの学習と推論に特化して設計されたスパースアテンションメカニズムです。動的階層的スパース戦略などの高度な技術により、従来のAIモデルの学習と推論プロセスを大幅に最適化します。 |
DeepSeek は、創設者 Liang Wenfeng が個人的に関与した NSA の研究結果を公開しました。
関連するおすすめ記事
-
グーグルが武器となるAIを開発しないという誓約を撤回した決定は物議を醸しており、元幹部のアンドリュー・ン氏が支持を表明した。
-
グローバルモバイルブロードバンドフォーラムが開幕:5G-AとAIの統合を加速し、モバイルAI時代をリード
-
何小鵬氏:多くの人がテスラの技術を誤解しています。FSDはファーウェイとXPengにプラスの影響を与えるでしょう。
-
報道によると、EUはバッテリーメーカーを皮切りに、EUの補助金と引き換えに中国企業に技術移転を強制する意向だという。
-
Sangfor Technologies は、GPT 4.0 セキュリティ スイートと、分散ストレージ システム EDS の新バージョン 520 をリリースしました。
-
突然、多数のユーザーがアカウントを停止されたため、ソーシャルメディアでは「Xiaohongshuアカウント停止」というハッシュタグがトレンド入りしました。その理由は何でしょうか?