|
2月24日 - OpenAIのCEOサム・アルトマン氏は、今年末までにAIモデルが「低レベル」のソフトウェアエンジニアを上回るようになると主張しているが、同社の最新の研究によると、現在利用可能な最も高度なAIモデルでさえ人間のプログラマーに匹敵することはできないことが示唆されている。 研究者たちは新たな論文の中で、最先端のモデル、つまり最も革新的で画期的なAIシステムでさえも、「依然としてほとんどの」プログラミングタスクを解くことができないと指摘しています。この問題に対処するため、彼らはフリーランスサイトUpworkに掲載された1400件以上のソフトウェアエンジニアリングタスクに基づいて、SWE-Lancerと呼ばれる新しいベンチマークツールを開発しました。このベンチマークを用いて、OpenAIは独自のo1推論モデル、主力製品であるGPT-4o、そしてAnthropicのClaude 3.5 Sonnetという3つの大規模言語モデル(LLM)をテストしました。 具体的には、この新しいベンチマークは、Upworkにおける2種類のタスク(脆弱性の修正と修復策の実施を含む個別タスクと、よりマクロ的な視点から高レベルの意思決定を行う必要がある管理タスク)の処理におけるこれらのLLMのパフォーマンスを評価します。なお、テストプロセス中はこれらのモデルがインターネットへのアクセスを禁止されていたため、既にオンラインで利用可能な類似のソリューションを直接コピーすることはできませんでした。 Upworkでこれらのモデルが実行するタスクの価値は数十万ドルに達していますが、ソフトウェアの表面的な問題を解決するだけで、大規模プロジェクトの脆弱性とその根本原因を真に発見することはできません。このような「中途半端な」解決策は、AIを扱った経験のある人にとっては馴染みのないものではありません。AIは自信に満ちた情報を出力するのが得意ですが、注意深く検証すると多くの欠陥が見つかることが多いのです。 論文では、これら 3 つの LLM は通常「人間よりもはるかに速く」タスクを完了できるが、脆弱性の広がりとそのコンテキストを理解できず、「不正確または不完全な」ソリューションが生まれると指摘しています。 研究者らは、Claude 3.5 Sonnetが他の2つのOpenAIモデルよりも優れた性能を示し、o1やGPT-4oよりも多くのポイントを「獲得」したと説明した。しかし、その解答の大部分は依然として不正解であった。研究者らは、どんなモデルでも現実世界のプログラミングタスクに真に使用可能であるためには「より高い信頼性」が必要であると指摘した。 つまり、この論文は、これらの最先端モデルはいくつかの詳細なタスクを迅速に処理できるものの、これらのタスクを処理するスキル レベルは人間のエンジニアのそれに比べてまだはるかに劣っていることを示唆しているようです。 近年、これらの大規模言語モデルは急速に発展し、継続的な進歩を遂げていますが、ソフトウェアエンジニアリングにおける現在のスキルレベルは、人間を置き換えるには依然として不十分です。しかし、IT Homeは、一部のCEOが人間のプログラマーを解雇し、開発途上のAIモデルを採用する動きが止まらないと指摘しています。(Yuanyang) |
OpenAI の最新調査: 現在の AI モデルはまだ人間のプログラマーに匹敵できません。
関連するおすすめ記事
-
上海市消費者保護委員会:「今使って後で支払う」政策は消費者の知る権利と選択の権利を保護する必要がある。
-
Li Liang 氏は、Douyin ユーザーの IP が海外に多数表示されていることに対して次のように反応した。「一部のブラックマーケットグループは、フォロワーを増やし、アカウントを育成するためにこれを利用したいと思っています。」
-
曹操モビリティは、バリアフリー交通への取り組みを強化しており、年末までに「バリアフリー運転手サービス」を北京、上海、広州、深センを含む20都市に拡大する予定だ。
-
于成東:今年は、全国の誰もが手頃な価格で購入でき、まったく予想外の新製品を発売します。
-
Apple は、ユーザーがあらゆる種類のイベントを簡単に計画できるようにする新しい「Invites」アプリをリリースしました。
-
Xiaomiの株価が初めて48香港ドルを突破!時価総額は1兆2,100億香港ドルを超え、史上最高値を更新しました。