画像生成 AI への攻撃と対策、MBSD Blog がマニアック解説 | ScanNetSecurity
2024.05.15(水)

画像生成 AI への攻撃と対策、MBSD Blog がマニアック解説

 三井物産セキュアディレクション株式会社(MBSD)は10月31日、DALL-E 2などの画像生成AIに対する敵対的攻撃について、同社ブログで発表した。

調査・レポート・白書・ガイドライン 調査・ホワイトペーパー

 三井物産セキュアディレクション株式会社(MBSD)は10月31日、DALL-E 2などの画像生成AIに対する敵対的攻撃について、同社ブログで発表した。文字数約9,000文字、掲載図版30点超と、同社ブログらしいいつもの偏執狂的情熱で網羅的かつ徹底解説されている。

 Stable DiffusionやDALL-E 2といった画像生成AIは、人々を不快にする暴力、ハラスメントなどの画像や欺瞞、プロパガンダ、公人の評判を貶めるなどの有害画像を悪意を持って生成されるリスクがあり、そのために「Safety Filter」が実装され、有害画像を生成・表示しないようにしている。

 同ブログでは、主にDALL-E 2のSafety Filterをbypassする主な攻撃手法としてMacaronic Prompting攻撃、Evocative Prompting攻撃、Prompt Dilution攻撃、Replace Prompting攻撃を挙げ、解説を行っている。

 同ブログによると、Macaronic Prompting攻撃は複数の異なる言語の単語を部分的に組み合わせることで独自の造語を作成し、Safety Filterのbypassを試みる攻撃手法で、人間には理解できないにもかかわらず、DALL-E 2に狙った画像を生成させることができる。

 またReplace Prompting攻撃では、狙った画像を遠回しに指し示す単語を配置することで、Safety Filterのbypassを試みる攻撃手法で、Safety Filterにブロックされる単語を別単語に置き換えることで、DALL-E 2に狙った画像を生成させることができる。

 同ブログでは、これらの攻撃への対策として、学習データから有害画像を除外する、ホワイトリストで不適切な単語を除外する、CLIP画像埋め込みの類似度を計算する、検閲用の画像分類器を使用する等を挙げ、解説している。

《高橋 潤哉》

関連記事

特集

PageTop

アクセスランキング

  1. 範を示す ~ MITRE がサイバー攻撃被害公表

    範を示す ~ MITRE がサイバー攻撃被害公表

  2. 脆弱な DMARC セキュリティ・ポリシーを悪用、北朝鮮スピアフィッシング詐欺

    脆弱な DMARC セキュリティ・ポリシーを悪用、北朝鮮スピアフィッシング詐欺

  3. 東京メトロ社員が遺失者になりすまし、現金総額 235,458円 ほか遺失物着服

    東京メトロ社員が遺失者になりすまし、現金総額 235,458円 ほか遺失物着服

  4. 「マルカワみそ公式サイト」に不正アクセス、カード情報に加えログイン用パスワードも漏えい

    「マルカワみそ公式サイト」に不正アクセス、カード情報に加えログイン用パスワードも漏えい

  5. TwoFive メールセキュリティ Blog 第14回「いよいよ6月、メルマガが届かなくなる…!? ~ メルマガ配信している皆さん ワンクリック購読解除の List Unsubscribe対応は済んでますか?」

    TwoFive メールセキュリティ Blog 第14回「いよいよ6月、メルマガが届かなくなる…!? ~ メルマガ配信している皆さん ワンクリック購読解除の List Unsubscribe対応は済んでますか?」

  6. テレ東「ヤギと大悟」公式 X アカウントが乗っ取り被害、意図しないポストが数件行われる

    テレ東「ヤギと大悟」公式 X アカウントが乗っ取り被害、意図しないポストが数件行われる

  7. ランサムウェア「LockBit」被疑者の資産を凍結し起訴

    ランサムウェア「LockBit」被疑者の資産を凍結し起訴

  8. ランサムウェア被害の原因はスターティア社の UTM テストアカウント削除忘れ

    ランサムウェア被害の原因はスターティア社の UTM テストアカウント削除忘れ

  9. 豊島のサーバにランサムウェア攻撃、復旧済みで業務に影響なし

    豊島のサーバにランサムウェア攻撃、復旧済みで業務に影響なし

  10. 北 中華製AIを攻撃活用/北 DMARC不正利用/北 日本のアニメ制作関与か ほか [Scan PREMIUM Monthly Executive Summary 2024年4月度]

    北 中華製AIを攻撃活用/北 DMARC不正利用/北 日本のアニメ制作関与か ほか [Scan PREMIUM Monthly Executive Summary 2024年4月度]

ランキングをもっと見る