ニューヨーク・タイムズの訴訟でChatGPTが立往生の可能性
コメント
注目のコメント
新聞と書籍という元々有料の文章が学習に使えなければ、GPT-4がここまで高性能にはならなかったのは確かでしょう。
対抗馬のClaudeは、書籍が含まれるBook3というデータセットの利用を止めると言ってます。OpenAIでもデータセットの再構築と再学習が進められているはずです。
限られたデータセットで言語能力の高さを維持できるかが一つのポイントです。もう一つは、最新情報へのアクセスをどのようなエコシステムで実現するかもポイントです。OpenAIの学習データからNYタイムズの記事を抜いてAIのモデルを再構築しなければいけないかも、という衝撃のニュース。
ニュースは最新の世の中の事象に対して独自の観点や切り口で解説して届けるのが仕事だと思いますので、過去のものに対しては目をつむり、今後はOpenAIの学習用には使わせないという着地がいいと考えています。
ここ一年弱で大きな飛躍を遂げた人類が、早くも後退してしまうかも...OpenAIもGPT-3.5まではどのようなデータを学習に用いられているかを公開していて、例えばこのNYTの件ですとその多くはCommon Crawl(CC)という非営利団体が公開する大規模ウェブクロールのオープンデータに含まれているはずです。
他方でOpenAIもGPT-4以降は学習データの詳細を公開しない方針に切り替わっており、またGPTBotという自前のウェブクローラでウェブページの収集を始めました。それに対する初動対応としてNYT等はGPTBotを早々にブロックしており、そのため理屈の上ではNYTも新たな記事はOpenAIの学習データには用いられないはずです。
ですので論点はCCに含まれるデータも含め蓄積された過去のNYT記事のアーカイヴを無許諾で学習に用いる是非ですが、米国での訴訟でOpenAIはフェアユースに基づく主張を展開するはずです。つまりNYTの過去記事も無許諾で学習に使うけど、それってフェアユースにあたるのでセーフだよねという主張。
他方でオプトアウト規制のある欧州では例えばル・モンドがlemonde.fr以下にあるページは全て学習データから外せと主張した場合にはOpenAIは応じる必要があり、また現在制定作業中のAI規制法案では学習データにlemonde.fr以下のページが含まれるか第三者が確認出来るように学習データ内の著作物の情報の開示が求められます。