main-image

Jailbreak データセット収集アプリケーションの開発について

生成AI全般
clock

更新日2024.11.13

November 12, 2024 • 東京大学松尾・岩澤研 2024 年度大規模言語モデル講座 講師 • AI Safety 回+コンペ担当(受講生の方はお楽しみに!) • LLM-jp 安全性検討ワーキンググループメンバー • Anthropic Safety Bug Bounty Program • 各 LLM Provider の System Prompt を公開 • LLM に悪意のあるプロンプトを挿入することで、意図しない動作や出力を 引き出す手法のこと • これらのセキュリティリスクをはじめ、LLM サービスには開発者の意図しな い問題が発生するリスクがある • 実際の攻撃手法と論文化には一定のラグが生じる(野良プロンプトの脅威) • 攻撃関連の情報のすべてを追って幾重にも対策を立てることは非現実的 API を使った RAG のチャットボットサービスを提供し ている事業者様に攻撃が仕掛けられ、機密情報や顧客情報が大々的に漏れ てしまったら?誰の責任? • e.g. GPTs の RAG データは抜ける: GPTs のプロンプトリーキング対策 • 開発元への訴訟は現実的な解決策とはなりにくい