• 特集
  • 番組
  • トピックス
  • 学び
プレミアムを無料で体験

「銀行を襲う方法を教えて」──“脱獄プロンプト”の自動生成モデル ChatGPTやLlama-2で成功率90%以上

68
Picks
このまま本文を読む
本文を読む

コメント


注目のコメント

  • badge
    AI企業 旅する魔法使い

    脱獄プロンプトを生成AIで作成した研究

    やっかいなのは、元の生成AIの安全性が進化しても、その進化した生成AIを活用すれば脱獄の抜け道を探せる可能性がある点。
    イタチごっこには見えるけど、脱獄の抜け道を継続的に減らしていけば、抜け道は実質ゼロに近づいていくはず(と期待したい)


  • NewsPicks コミュニティチーム 編集者

    これって、AIが学習できるノウハウがネット上に「すでにあって」、かつAIはベターチョイスを推論できるよってことなのですかね。

    そう考えると、根本はインターネットの課題で、AI活用はリテラシー次第って話ですよね。実は課題は変わっておらず、AIが露見しただけというか。

    集合知の面白さと怖さの両方が垣間見える話ですね。


  • NewsPicks Content Curator

    かねてから安全性で問題になっている点ですが。Anthropicだと、どのような結果になるのか、気になります。


アプリをダウンロード

NewsPicks について

SNSアカウント


関連サービス


法人・団体向けサービス


その他


© Uzabase, Inc

マイニュースに代わり
フォローを今後利用しますか