「銀行を襲う方法を教えて」──“脱獄プロンプト”の自動生成モデル ChatGPTやLlama-2で成功率90%以上
コメント
注目のコメント
脱獄プロンプトを生成AIで作成した研究
やっかいなのは、元の生成AIの安全性が進化しても、その進化した生成AIを活用すれば脱獄の抜け道を探せる可能性がある点。
イタチごっこには見えるけど、脱獄の抜け道を継続的に減らしていけば、抜け道は実質ゼロに近づいていくはず(と期待したい)これって、AIが学習できるノウハウがネット上に「すでにあって」、かつAIはベターチョイスを推論できるよってことなのですかね。
そう考えると、根本はインターネットの課題で、AI活用はリテラシー次第って話ですよね。実は課題は変わっておらず、AIが露見しただけというか。
集合知の面白さと怖さの両方が垣間見える話ですね。