LLMファインチューニングは機能しない?
コメント
注目のコメント
LLMを企業で使っていく上でのプライベート開発に関連する技術について、直近の動向をまとめました。LLMファインチューニングは思ったほどの結果を出せない、という研究も出ていて気になりました。
先月終わりに出た論文 “The False Promise of Imitating Proprietary LLMs” (「ChatGPTと同等のモデルを真似することはできない」)では、ここ数ヶ月のオープンソースモデルの発展に一石を投じました。モデルによっては「半分以上のやり取りにおいてChatGPTと同等ないしそれ以上と人間が判断した」、とされる結果を再検証し、より大規模な検証用データで検証したところ、その評価はChatGPTよりも大幅に低く、また学習データを増やすと悪化したという結果を示しています。これは気になりますね。なるほどと思いました。
「チューニングされたモデルは人を騙すほどそれらしい答え方をしたというのは注目ポイントです。ファインチューニングが得意なのはインプットに対する答え方の形式の質を上げることのようです。」
精密な知識を記憶するには、大規模データセットと大規模モデルがやはり必要だったということでしょうかね。LLMも軽量化に一石投じる重要な話ですと受け止めました。ここ最近のLLM周りのキャッチアップに最適な記事ですね。
オープンソースのLLMが盛り上がってますが、やっぱり基盤モデルの性能が一番大切という論文は悲しい現実を突きつけられるような気持ちにもなります。
基盤モデルのさらなる発展とオープン化に期待したいですが、我々小市民の手元では、LangChainやLlamaIndexを使ったLLMへの知識追加でごまかしごまかし頑張るしかないのでしょうか。