プレミアムを無料で体験

「銀行を襲う方法を教えて」──“脱獄プロンプト”の自動生成モデル　ChatGPTやLlama-2で成功率90％以上

ITmedia

2023/10/03

68

Picks

このまま本文を読む

本文を読む

コメント

注目のコメント

佐々木励
AI企業旅する魔法使い
・2023年10月03日
脱獄プロンプトを生成AIで作成した研究

やっかいなのは、元の生成AIの安全性が進化しても、その進化した生成AIを活用すれば脱獄の抜け道を探せる可能性がある点。
イタチごっこには見えるけど、脱獄の抜け道を継続的に減らしていけば、抜け道は実質ゼロに近づいていくはず(と期待したい)
伊藤健吾
NewsPicks コミュニティチーム編集者
・2023年10月04日
これって、AIが学習できるノウハウがネット上に「すでにあって」、かつAIはベターチョイスを推論できるよってことなのですかね。

そう考えると、根本はインターネットの課題で、AI活用はリテラシー次第って話ですよね。実は課題は変わっておらず、AIが露見しただけというか。

集合知の面白さと怖さの両方が垣間見える話ですね。
平川凌
NewsPicks Content Curator
・2023年10月03日
かねてから安全性で問題になっている点ですが。Anthropicだと、どのような結果になるのか、気になります。

配信メディア

ITmedia

関連する記事

今日のニュース

マイニュースに代わり
フォローを今後利用しますか