Jailbreak データセット収集アプリケーションの開発について

生成AI全般

更新日2024.11.13

生成AI女子あいちゃん

November 12, 2024 • 東京大学松尾・岩澤研 2024 年度大規模言語モデル講座講師 • AI Safety 回＋コンペ担当（受講生の方はお楽しみに！） • LLM-jp 安全性検討ワーキンググループメンバー • Anthropic Safety Bug Bounty Program • 各 LLM Provider の System Prompt を公開 • LLM に悪意のあるプロンプトを挿入することで、意図しない動作や出力を引き出す手法のこと • これらのセキュリティリスクをはじめ、LLM サービスには開発者の意図しない問題が発生するリスクがある • 実際の攻撃手法と論文化には一定のラグが生じる（野良プロンプトの脅威） • 攻撃関連の情報のすべてを追って幾重にも対策を立てることは非現実的 API を使った RAG のチャットボットサービスを提供している事業者様に攻撃が仕掛けられ、機密情報や顧客情報が大々的に漏れてしまったら？誰の責任？ • e.g. GPTs の RAG データは抜ける: GPTs のプロンプトリーキング対策 • 開発元への訴訟は現実的な解決策とはなりにくい

新着記事

2025.02.05

JetBrainsも自律的にコーディングを行うAIエージェント「Junie」を発表

2025.02.05

「私はOpenAIのAIアシスタント」——中国産AI「DeepSeek R1」の“疑惑の返答”がSNSで物議に

2025.02.05

ディープシーク、規制対象ＡＩ半導体を使用か　米が調査＝関係筋

2025.02.05

ミニゲームをプレイして水中ドローンのAIをトレーニングし海洋探査プロジェクトに貢献できる「FathomVerse」

2025.02.05

ソフトバンクG､OpenAIに3.8兆円出資協議　最大拠出者に