OpenAI は、ブラウザを制御して買い物や食べ物の注文などのタスクを自動的に完了できる初の AI エージェント「Operator」をリリースしました。

1月24日、OpenAIはユーザーに代わってウェブベースの操作を実行できる初のAIエージェント「Operator」のリリースを発表した。

Operator は現在、米国の Pro 加入者向けに提供されており、将来的には Plus、Team、Enterprise 加入者にも拡張され、これらの機能は ChatGPT に統合される予定です。

Operator は、GPT-4o の視覚機能と強化学習によって実現される高度な推論を組み合わせた CUA と呼ばれる新しいモデルを搭載しています。

トレーニング後、Operatorはブラウザのコンテンツを「認識」し、マウスとキーボードで可能なすべての操作を使ってウェブページを操作できるようになります。例えば、公式デモでは、Operatorがレストランを予約したり、オンラインショッピングサイトで買い物をしたりすることが示されました。

しかし、OpenAIは、Operatorが既に市場で最も強力なAIエージェントである一方で、人間のエージェントには程遠いことをユーザーに注意喚起しています。そのため、この新しい技術はまだエラーが発生しやすいものの、今後数か月で改善が続けられる予定です。(Xiao Jian)

SHOUJIKE