イラストや文章がAIに学習されることを防ぐ技術的な方法4選

#AI#HowTo#HTML#セキュリティ#プライバシー#プログラミング
投稿日:

近年では、ChatGPTやStable Diffusionをはじめとした生成AIが普及しています。これらの生成AIは、インターネット上から自動的に収集した大量の学習データを用いて学習しています。一方で、生成AIに自分のコンテンツを学習されたくないという人もいると思います。

この記事では、生成AIに自分のコンテンツを学習されることを防ぐ技術的な方法について紹介します。

1. オプトアウト設定を使用する

一部のプラットフォームは、生成AIによる学習データとして使用されることを望まないユーザーが、オプトアウト設定をできるようになっています。

詳しくは、次の記事を参照してください。

記事のサムネイル
Adobe製品で作った作品がAIの学習に使われる?規約変更に関するデマに注意
Adobeの製品を使って作った作品が機械学習に利用される——そんなセンセーショナルな情報がインターネットを駆け巡った。しかし、これは事実ではない。利用規約の一部の誤って解釈したインターネットユーザーと、注意深く確認せずにそれを記事にしたメディアによって、誤った情報が急速に広まった。今回は、利用規約を注意深く読み解きながら、真相を探っていく。

2. robots.txtを使用する

生成AIの学習データは、クローラーと呼ばれるBotがインターネット上を巡回して収集しています。

robots.txtは、クローラーがクロールする際に参照するファイルです。robots.txtを使用することで、クローラーに対してクロールを許可するページや許可しないページを指定できます。

robots.txtの指示に従うことは義務ではなく、一部のクローラーはrobots.txtを無視することがあります。しかし、一般的なクローラー、とくに有名な企業のクローラーであればrobots.txtを尊重することが多いため、robots.txtを活用することで生成AIに学習されるリスクを軽減できます。

robots.txtは、Webサイトのルートディレクトリーに配置します。たとえば、当サイトのrobots.txtは次のURLから参照できます。

robots.txtを使ってクローラーによるクロールを拒否したい場合、ホワイトリスト形式とブラックリスト形式の2つの方法があります。

ホワイトリスト形式は、特定のクローラーにのみクロールを許可し、それ以外のすべてのクローラーによるクロールは禁止するという形式です。ブラックリスト形式はその逆で、特定のクローラーを禁止し、それ以外のすべてのクローラーによるクロールは許可するという形式です。

生成AIの学習データとして使用されることを可能な限り防ぎたい場合は、ホワイトリスト形式を使うことがオススメです。次の例は、GoogleとBing、Yahoo!の検索エンジンのクローラーは許可し、それ以外は拒否するrobots.txtの例です。

robots.txt
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
User-agent: Slurp
Allow: /
User-agent: *
Disallow: /

また、すべてのクローラーを拒否したい場合は、次のようにします。ただし、この場合はGoogleなどの検索結果にも表示されなくなるため注意してください。

robots.txt
User-agent: *
Disallow: /

参考:

3. メタタグを使用する

DeviantArtなどが提唱している、noaiというタグがあります。robots.txtほどは普及していない新しい規格ですが、将来的にはさらに普及する可能性があります。

robots.txtと同様に、このタグに従うことは義務ではありません。しかし、単純にクローラーをブロックするだけのrobots.txtと違い、こちらの方法ではAIによる学習を望まない旨をより直接的に表明できます。

noaiタグを使うには、対象となるWebページのHTMLの<head>タグ内に次のように記述します。

<meta name="robots" content="noai, noimageai">

または、HTTPヘッダーに次のような記述を追加します。

X-Robots-Tag: noai, noimageai

参考:

4. スクレイピング保護機能を使用する

Cloudflareなどの一部のサービスは、AIの学習データを収集しているクローラーによるアクセスを自動的にブロックする機能を提供しています。

こうした機能を利用することで、robots.txtやnoaiタグを無視するクローラーを効果的にブロックできます。

CloudflareのAIスクレイピング防止機能の詳細については、こちらの記事で紹介しています。

まとめ

この記事では、生成AIに自分のコンテンツを学習されることを防ぐ技術的な方法について紹介しました。

生成AIの学習データとして使用されることを可能な限り防ぎたい場合は、robots.txtやnoaiタグ、スクレイピング保護機能を活用することがオススメです。

Xに共有する Blueskyに共有する Misskeyに共有する LINEに共有する Threadsに共有する
著者のアイコン画像

生まれた時から、母国語よりも先にJavaScriptを使っていました。ネットの海のどこにもいなくてどこにでもいます。

Webフロントエンドプログラマーで、テクノロジーに関する話題を追いかけています。動画編集やプログラミングが趣味で、たまにデザインなどもやっています。主にTypeScriptを使用したWebフロントエンド開発を専門とし、便利で実用的なブラウザー拡張機能を作成しています。また、個人ブログを通じて、IT関連のニュースやハウツー、技術的なプログラミング情報を発信しています。