main-image

DeepSeekは脱獄が容易、簡単に悪意あるコンテンツを作成可能【パロアルトネットワークス発表】

生成AI全般
clock

更新日2025.02.05

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます パロアルトネットワークスの脅威インテリジェンスチーム「Unit 42」は、中国を拠点とするAI研究組織が開発したオープンソースLLMである「DeepSeek」が、非常に脱獄しやすく、専門知識や専門技術がなくても悪意のあるコンテンツを作成できることを明らかにしたという。 脱獄とは、LLMに実装された制限を回避して、悪意のあるコンテンツや禁止されたコンテンツを生成することを指す。Unit 42はDeepSeekに対して、生成AIの脱獄手法を試したとのことだ。 Unit 42が名付けた「Deceptive Delight(英語)」と「Bad Likert Judge(英語)」と呼ばれる新しい脱獄手法、およびやり取りを重ねて制限を緩める「Crescendo(英語)」を試したところ、以下の結果がわかったとしている。 高いバイパス率/脱獄率が明らかになり、悪意のある行為者に利用されうることが判明 安全のための制限が不十分なLLMは、悪意のある行為者にとって簡単に利用でき、実行可能な出力をコンパイル(ソースコードを実行可能な