|
12月18日、大規模言語モデルの価格がセント単位になったのに続き、視覚理解モデルも「セント時代」に入ったことが発表されました。 Volcano Engine Forceカンファレンスにおいて、ByteDanceはDoubao視覚理解モデルを正式にリリースし、企業にコスト効率の高いマルチモーダル大規模モデル機能を提供しました。 報道によると、Doubao視覚理解モデルの入力コストは1000トークンあたりわずか0.3セントで、わずか1元で284枚の720P画像を処理でき、これは業界平均よりも85%安価です。 Volcano Engineの社長であるTan Dai氏は、Doubaoの視覚理解モデルは視覚コンテンツを正確に識別するだけでなく、優れた理解力と推論能力を備えていると述べています。画像情報に基づいて複雑な論理計算を実行し、グラフの分析、コード処理、学術的な質問への回答などのタスクを完了できます。さらに、このモデルは洗練された視覚的描写と創造力を発揮します。 Doubaoの視覚理解モデルは、DoubaoアプリとPC製品に統合されていました。Doubaoの戦略研究責任者である周浩氏は、「Doubaoはユーザー入力の高速化と利便性向上に尽力してきました」と述べています。この目標達成のため、Doubao製品は音声や視覚機能を含むマルチモーダル入力と改良に重点を置いています。これらのモデルは、Volcano Engineを通じてエンタープライズクライアントに提供されています。 カンファレンスでは、豆宝3D生成モデルも初公開されました。このモデルは、Volcano EngineのデジタルツインプラットフォームveOmniverseと連携することで、インテリジェントトレーニング、データ合成、デジタルアセット作成を効率的に完了し、AIGC作成をサポートする物理世界シミュレーションシミュレーターとなります。 さらに、Doubao Big Modelのいくつかの製品も重要なアップデートを受けました。Doubao General Model ProはGPT-4oと完全に連携し、価格は後者の1/8になりました。音楽モデルは、単純な60秒の構造を生成することから、完全な3分間の作品を生成できるようにアップグレードされました。Wenshengtuモデルバージョン2.1は、業界初の製品化された漢字の正確な生成と一文の画像編集機能を実現し、このモデルはJimeng AIとDoubao Appに統合されました。 Volcano Engineは、2025年春にDoubao動画生成モデルのバージョン1.5をリリースし、より長時間の動画生成を可能にすると発表した。Doubaoエンドツーエンドのリアルタイム音声モデルもまもなくリリースされ、マルチロールパフォーマンスや方言変換などの新機能が利用可能になる。Tan Dai氏は、Doubao大規模モデルのリリースは比較的遅かったものの、急速に反復・進化を遂げており、現在では中国で最も包括的で技術的に先進的な大規模モデルの一つとなっていると述べた。(周小白) |
Doubaoの視覚理解モデルが正式にリリースされ、その価格は業界平均より85%安くなっています。
関連するおすすめ記事
-
雷軍氏は大晦日のライブ配信で2025年に向けた野心的な目標を設定し、自動車製造における成功の3つの主な理由を明らかにした。
-
張朝陽:人気は生まれつきのものではありません。インフルエンサー起業家の成功は、粘り強さから生まれます。
-
NetEase Cloud Musicの2024年度年次リスニングレポートが話題に:あなたの好きな歌手は誰ですか?
-
Xianyuは中古車仲介と自動車販売の追加により、新たな事業分野に進出しました。
-
テスラがこれまでで最も強力な FSD バージョンをリリース: 「ピアツーピア」自動操縦により人間の介入が不要になります。
-
報道によると、OpenAI は Broadcom および TSMC と協力して独自のカスタム チップを開発しているという。