OpenAIのクローラーをNew York Timesなどのペイウォールメディアがブロック開始
コメント
注目のコメント
OpenAIのウェブクローラであるGPTBotがウェブサイト管理者の観測網に引っかかり始め、OpenAIがこのクローラを制御するのに必要な技術情報を公開したのが8月初頭。つまりOpenAIが公式に自前のウェブクロールを始めたのが8月に入ってからです。
なので現在各社がGPTBotをブロックし始めているのは、記事で挙げられているNYTの例のようなコンテンツ利用ポリシーの変更によるものというよりも、OpenAIがウェブクロールを始めたことに対する初動反応と見るべきでしょう。とりあえず生ならぬ「とりあえずブロック」といったところで、OpenAIにクロールされるメリットは無いと判断している事になります。
で、現時点で既に主要1000ウェブサイトのうち9%超、トップ100だと15%超が「とりあえずブロック」しています。
https://originality.ai/blog/study-websites-blocking-gptbot
非常に気になるのはCCBotが巻き添えを食らってブロックされ始めている点です。軽くチェックしましたがNYTは今年の4月、日経も8月からブロックし始めたようです。
CCBotはCommon Crawl(CC)という非営利団体が2013年から実施している大規模クロールのクローラで、世界中のウェブサイトから定期的に収集したページのアーカイブをAWS S3上でオープンデータとして公開しています。
CCのデータはGPTやStable Diffusionといった生成AIモデルの学習にも広く用いられています。Googleならずとも世界中から収集した大規模データを活用出来るようになったというウェブデータの民主化という点でCCの貢献は非常に大きいです。
ただChatGPT等の登場によって原著作物と競合するようなコンテンツの自動生成が広く利用可能となってしまったため、CCBotについても「とりあえずブロック」が広がるとなると問題です。CCのデータは生成AI以外にも学術を含む幅広い用途で利用されているからです。
この辺り、Google等はAI用途も含めたウェブデータ利用のきめ細かい制御のために現在robots.txtの拡張に取り組んでいるようです。全文検索にはヒットしないと訪問者が減るので悩ましいですね。AI学習だけをブロックするのは紳士協定に近いものがあります。
商業的には分かるのですが、ネット空間の知の構造化と民主化がどうあるべきか、という視点も大事でしょう。かつてWikipediaは人力を集めて世界中の知の構造化に挑みました。AIの助けを借りた、新たなAI Wikipedia的なサイトが登場する予感がします。有料サイトの情報を読んで要約して文章を生成するのはどう考えてもマズイですね。信頼できるニュースサービスの数はそんなに多くないので、法人取引を持ちかけてデータを読みにいけばいいんじゃないでしょうか?
"OpenAIは7月、ペイウォールのあるメディアの有料記事が読めてしまうという報告を受け、ChatGPT PlusのWebブラウジングを一時停止した"