|
3月6日、アリババのQwenチームは最新の研究成果であるQwQ-32B大規模言語モデルを正式に発表した。 これは 320 億のパラメータを持つモデルであり、そのパフォーマンスは 6710 億のパラメータ (そのうち 370 億がアクティブ) を持つ DeepSeek-R1 に匹敵します。 QwQ-32B は、DeepSeek-R1 の約 21 分の 1 のパラメータ数で強化学習を使用し、パフォーマンスの飛躍的な向上を実現します。 さらに、Alibaba はエージェント関連の機能を推論モデルに統合し、ツールを使用しながら批判的に考え、環境からのフィードバックに基づいて推論プロセスを調整できるようにしました。 QwQ-32B は、数学的推論、プログラミング スキル、および一般的な能力を評価する一連のベンチマーク テストで評価されました。 数学的能力をテストするための AIME24 ベンチマーク セットとコーディング能力を評価するための LiveCodeBench において、QwQ-32B は DeepSeek-R1 に匹敵するパフォーマンスを発揮し、同じサイズの o1-mini および R1 蒸留モデルをはるかに上回るパフォーマンスを発揮しました。 一方、Metaのチーフサイエンティストであるヤン・リークン氏が主導する「最も難しいLLMベンチマーク」であるLiveBench、Googleなどが提案するIFEvalベンチマークセット、カリフォルニア大学バークレー校などが提案する関数やツールの呼び出し精度を評価するBFCLテストでは、いずれもQianwen QwQ-32BのスコアがDeepSeek-R1を上回った。 現在、QwQ-32BはHugging FaceとModelScopeでオープンソース化されており、Qwen Chatを通じて直接体験することもできます!(Suixin) |
アリババが全く新しい推論モデルを発表:パラメータはわずか21分の1で、DeepSeek R1に匹敵
関連するおすすめ記事
-
ファーウェイ、北京に登録資本金1億元の銀王智能科技有限公司を設立。
-
BYD Tang DM-i Smart Driving Edition発売:価格は179,800~219,800元
-
360: 当社は現時点では DeepSeek に対していかなるサービスも提供していません。
-
ディープブルー・エアロスペース社のネビュラ1号ロケットは、中国初の商用中型再使用ロケットとなり、第2四半期に初飛行が予定されている。
-
報道によると、Appleは2026年第3四半期に折りたたみ式携帯電話を発売する予定で、Lens TechnologyがUTGガラスを供給するという。
-
Zhiji AutoはMomentaと提携し、「ワンステージ、エンドツーエンドの直感的なインテリジェント運転モデル」を共同で開発した。