生成AIに対するサイバー攻撃は、大きく分けて「生成AIを悪用する攻撃」と「生成AI自体を標的とする攻撃」の2種類があります。
1. 生成AIを悪用する攻撃
生成AIが持つ高度な文章生成能力や画像生成能力などを悪用し、従来のサイバー攻撃をより巧妙化・効率化する手口です。
- フィッシング詐欺の高度化:
- 生成AIを使って、より自然で説得力のあるフィッシングメールやメッセージを大量に生成します。
- 特定の個人や組織に合わせた、パーソナライズされたフィッシングメールを作成することで、だまされやすさを高めます。
- マルウェア・ランサムウェアの生成:
- 生成AIにマルウェアやランサムウェアのコードを作成させ、悪意のあるソフトウェアの開発を効率化します。
- 新たな種類のマルウェアを生み出す可能性も指摘されています。
- ディープフェイクの悪用:
- 生成AIが作り出す精巧な偽の画像や動画(ディープフェイク)を用いて、詐欺、フェイクニュースの拡散、名誉毀損などを行います。
- 本人に成りすまして金銭を要求したり、誤情報を流布したりするリスクがあります。
- 社会工学的な攻撃:
- 生成AIを用いて、ターゲットから情報を引き出すための対話やシナリオを生成し、詐欺や不正アクセスを試みます。
- 人間らしい自然な会話によって、警戒心を抱かせずに情報を聞き出すことができます。
2. 生成AI自体を標的とする攻撃
生成AIモデルの脆弱性や特性を悪用し、モデルの性能を低下させたり、機密情報を抜き取ったりする手口です。
- 敵対的攻撃 (Adversarial Attacks):
- AIモデルが誤った判断をするように、わずかな変更を加えた入力データ(敵対的サンプル)を作成してモデルをだまします。
- 例えば、自動運転車が標識を誤認識したり、画像認識システムが画像を誤分類したりする可能性があります。
- 生成AIにおいては、意図しない出力や不適切なコンテンツの生成を引き起こす可能性があります。
- データポイズニング攻撃 (Data Poisoning Attacks):
- AIモデルの学習データに意図的に不正なデータやバイアスのあるデータを混入させ、モデルの挙動を操作します。
- これにより、モデルの精度を低下させたり、特定の条件下で誤った出力を行わせたりすることができます。
- 訓練データが継続的に更新されるようなシステムでは特にリスクが高いです。
- プロンプトインジェクション攻撃 (Prompt Injection Attacks):
- 生成AIへの指示(プロンプト)の中に、悪意のある命令や制約を無視させるような指示を埋め込み、意図しない出力を引き出します。
- モデルの安全対策やガードレールを迂回させ、機密情報の漏洩、不適切なコンテンツの生成、外部システムへの不正な操作などを引き起こす可能性があります。
- 「ジェイルブレイキング」とも呼ばれ、特に大規模言語モデル(LLM)で顕著な脅威です。
- モデル逆転攻撃 (Model Inversion Attacks):
- AIモデルの出力から、そのモデルが学習したプライベートな訓練データを再構築しようとする攻撃です。
- 顔認識モデルから訓練に使われた個人の顔画像を復元したり、医療モデルから個人の健康情報を推測したりするなどのプライバシー侵害のリスクがあります。
- メンバーシップ推論攻撃 (Membership Inference Attacks):
- 特定のデータがAIモデルの訓練データに含まれていたかどうかを推測する攻撃です。
- これにより、個人のプライバシーが侵害される可能性があります。例えば、ある個人の医療データが特定の疾患予測モデルの学習に使われたかどうかを特定されるといったケースです。
これらの攻撃は、生成AIの社会的な普及に伴い、ますます巧妙化し、現実的な脅威となっています。生成AIの利用においては、これらのリスクを理解し、適切な対策を講じることが重要です。
コメントする