|
12月13日、TechCrunchは12月12日にハーバード大学とGoogleが100万冊のパブリックドメイン書籍をAIトレーニングデータセットとして共同で公開すると発表したと報じた。 AIの学習に必要なデータは高価ですが、資金力のあるテクノロジー企業にとってはより適しています。そのため、ハーバード大学は、著作権が切れたディケンズ、ダンテ、シェイクスピアといった古典作家を含む、様々なジャンル、言語、作家を網羅した約100万冊のパブリックドメイン書籍を含むデータセットを公開する予定です。 この新しいデータセットはまだ公開されておらず、具体的な公開方法や時期も不明ですが、Googleの長年のプロジェクトであるGoogleブックスから生まれたものです。そのため、Googleはこの「貴重な資産」の広範な公開に協力する予定です。 ハーバード大学は今年3月には既に「機関データ・イニシアチブ(IDI)」を発表し、AIに「正当なデータのための信頼できるチャネル」を提供することを目指していると述べていたと伝えられている。同イニシアチブが正式に発足した後、マイクロソフトとOpenAIから資金提供を受けたことが正式に発表された。 IDIのエグゼクティブディレクター、グレッグ・レパート氏は、このデータセットは研究機関やAIスタートアップを含む様々な組織に大規模言語モデルの訓練を支援するために利用できるようにすることで、「公平な競争環境」を提供することを目指していると述べた。(清遠) |
ハーバード大学とGoogleは、AIトレーニング用の法的データを提供するために、パブリックドメインの書籍100万冊を公開しました。
関連するおすすめ記事
-
報道によると、OpenAI は月額 2 万ドルの料金で「博士レベル」の AI エージェントを立ち上げる予定だという。
-
Apple App Store アカウントのトップアップは、12 月 30 日までの期間限定で 5% のボーナスの対象となります。
-
Google が新しい機能を展開しています: Gemini は PDF コンテンツをすばやく要約するのに役立ちます。
-
OpenAI が重大発表: ChatGPT 検索は無料で、登録なしですべてのユーザーに公開されます。
-
FAW-フォルクスワーゲンが新たなマイルストーンを達成。2,000万台目の車両が生産ラインから出荷される。
-
報道によると、Armは半導体設計会社Ampere Computingの買収を検討しているという。