イラストや文章がAIに学習されることを防ぐ技術的な方法4選
近年では、ChatGPTやStable Diffusionをはじめとした生成AIが普及しています。これらの生成AIは、インターネット上から自動的に収集した大量の学習データを用いて学習しています。一方で、生成AIに自分のコンテンツを学習されたくないという人もいると思います。
この記事では、生成AIに自分のコンテンツを学習されることを防ぐ技術的な方法について紹介します。
1. オプトアウト設定を使用する
一部のプラットフォームは、生成AIによる学習データとして使用されることを望まないユーザーが、オプトアウト設定をできるようになっています。
詳しくは、次の記事を参照してください。
2. robots.txtを使用する
生成AIの学習データは、クローラーと呼ばれるBotがインターネット上を巡回して収集しています。
robots.txtは、クローラーがクロールする際に参照するファイルです。robots.txtを使用することで、クローラーに対してクロールを許可するページや許可しないページを指定できます。
robots.txtの指示に従うことは義務ではなく、一部のクローラーはrobots.txtを無視することがあります。しかし、一般的なクローラー、とくに有名な企業のクローラーであればrobots.txtを尊重することが多いため、robots.txtを活用することで生成AIに学習されるリスクを軽減できます。
robots.txtは、Webサイトのルートディレクトリーに配置します。たとえば、当サイトのrobots.txtは次のURLから参照できます。
robots.txtを使ってクローラーによるクロールを拒否したい場合、ホワイトリスト形式とブラックリスト形式の2つの方法があります。
ホワイトリスト形式は、特定のクローラーにのみクロールを許可し、それ以外のすべてのクローラーによるクロールは禁止するという形式です。ブラックリスト形式はその逆で、特定のクローラーを禁止し、それ以外のすべてのクローラーによるクロールは許可するという形式です。
生成AIの学習データとして使用されることを可能な限り防ぎたい場合は、ホワイトリスト形式を使うことがオススメです。次の例は、GoogleとBing、Yahoo!の検索エンジンのクローラーは許可し、それ以外は拒否するrobots.txtの例です。
また、すべてのクローラーを拒否したい場合は、次のようにします。ただし、この場合はGoogleなどの検索結果にも表示されなくなるため注意してください。
参考:
- robots.txt の概要とガイド | Google 検索セントラル | ドキュメント | Google for Developers
- robots.txt の書き方、設定と送信 | Google 検索セントラル | ドキュメント | Google for Developers
3. メタタグを使用する
DeviantArtなどが提唱している、noai
というタグがあります。robots.txtほどは普及していない新しい規格ですが、将来的にはさらに普及する可能性があります。
robots.txtと同様に、このタグに従うことは義務ではありません。しかし、単純にクローラーをブロックするだけのrobots.txtと違い、こちらの方法ではAIによる学習を望まない旨をより直接的に表明できます。
noai
タグを使うには、対象となるWebページのHTMLの<head>
タグ内に次のように記述します。
または、HTTPヘッダーに次のような記述を追加します。
参考:
4. スクレイピング保護機能を使用する
Cloudflareなどの一部のサービスは、AIの学習データを収集しているクローラーによるアクセスを自動的にブロックする機能を提供しています。
こうした機能を利用することで、robots.txtやnoai
タグを無視するクローラーを効果的にブロックできます。
CloudflareのAIスクレイピング防止機能の詳細については、こちらの記事で紹介しています。
まとめ
この記事では、生成AIに自分のコンテンツを学習されることを防ぐ技術的な方法について紹介しました。
生成AIの学習データとして使用されることを可能な限り防ぎたい場合は、robots.txtやnoai
タグ、スクレイピング保護機能を活用することがオススメです。