米紙データ「実際には必要ない」 オープンAIのアルトマンCEO
コメント
注目のコメント
興味深い。
そのうえで、「取引にオープンな姿勢」を取るのはなぜなのか?
NYT自体からは学習していなくても、それを使ったものは他のメディア(NYTによると…)とか、ネット全体でも広くある。
それは引用で言うところの「孫引き」になるが、本当に必要なくするには、学習前の前処理で原文から孫引き系を取り除く処理が必要になる。ただそうすると、本文の趣旨が狂ったり、論理整合が崩れるリスクもある。
そういうリスクヘッジのためにも、NYTやそれ以外も含めたメディアとの協業を進めているのではないかと思う。
これは下記などと併せて気になっている。
わたしたちのコンテンツを使うなら使用料を払うべき —— 生成AIの開発を競う大手企業にRedditが要求(2023年4月)
https://newspicks.com/news/8374907
一方で、NYT単独であればともかく、メディアがLLMの学習利用に総反対とか条件を儲けた場合はどうなるだろうか?
ネットシフトで成功した伝統的なメディアは僅かだし、経済系専門誌や一部のクオリティメディアなど、セグメントメディアだと思っている。伝統的メディアについて、個人的には驕りもあったと思う一方で、メディアが稼げなくなったからこそPV追及をメディア側もしてしまったり、情報品質という意味で、社会的に負の均衡に移ったと思う(誰でも発信できるようになったことで、メディア以外ではポジもあるが情報量が増えすぎたネガもある)。
逆に、今はテック系企業が驕っていないか?
イノベーションが持続的になるためには、対価が払われるべきところに対価が払われることが必要。そこで濫用・パワープレーが過ぎると、その構造負債は必ず生まれる。インターネットが発達して当たり前に利用できる現代。
新聞に限らず、SNSも含め情報は誰のものか?の議論は尽きませんが、今回の件に関してはサムアルトマンの主張の通り、巨大な玩具箱(私はLLMをこう例えています)の中のおもちゃパーツの一つに過ぎないので、NYTの主張は通らないのではないかと思います。これまで、大量のデータがなければディープラーニング が使えないという通説がありました。
ここにきて、そうではなくなっている。
「高校レベルの生物学を理解するのに教科書を2千冊も読む必要はない。1冊か3冊あればいいかもしれない」
まさにその通り。
最近は既に学習済の基盤モデルをいかに工夫して使うというアプローチなので、重要なのは高品質データです。