近年では、ChatGPTやStable Diffusionをはじめとした生成AIが普及しています。これらの生成AIは、インターネット上から自動的に収集した大量の学習データを用いて学習しています。一方で、生成AIに自分のコンテンツを学習されたくないという人もいると思います。
この記事では、生成AIに自分のコンテンツを学習されることを防ぐ技術的な方法について紹介します。
1. オプトアウト設定を使用する
一部のプラットフォームは、生成AIによる学習データとして使用されることを望まないユーザーが、オプトアウト設定をできるようになっています。
詳しくは、次の記事を参照してください。
X(Twitter)の利用規約が改訂へ 投稿がAIの学習に利用されるって本当?
2024年10月17日ごろからX(旧Twitter)上では、同サービスの利用規約とプライバシーポリシーが変更され、投稿内容がAIの学習に利用されるようになるとの情報が広まっている。本稿では、Xの過去の利用規約やプライバシーポリシーを注意深く読み解きながら、その真相を探る。
X(Twitter)でGrokの学習をオフにする方法 Grokでスマホが熱くなるって本当?
この記事では、X(旧Twitter)のAI「Grok」にあなたのポスト(ツイート)などのデータが学習されないようにする方法を紹介します。PC版Web、iOSアプリ、Androidアプリのそれぞれで設定を変更する方法を解説します。また、Grokの学習がオンだとスマホが熱くなるという噂についても解説します。
Adobe製品で作った作品がAIの学習に使われる?規約変更に関するデマに注意
Adobeの製品を使って作った作品が機械学習に利用される——そんなセンセーショナルな情報がインターネットを駆け巡った。しかし、これは事実ではない。利用規約の一部の誤って解釈したインターネットユーザーと、注意深く確認せずにそれを記事にしたメディアによって、誤った情報が急速に広まった。今回は、利用規約を注意深く読み解きながら、真相を探っていく。
WordPressやTumblrがAIに学習されるのを防ぐ方法
WordPressやTumblrを使っていると、自分の作成したコンテンツがAIに学習される可能性があることをご存知ですか?もし、自分のブログや記事がAIの学習素材として利用されるのを防ぎたい場合、どうすればよいのでしょうか。この記事では、オプトアウトの設定方法を詳しく解説します。
FigmaのAI機能と学習を無効にする方法
FigmaはデフォルトでユーザーのコンテンツをAIの学習に利用するとしています。この記事では、Figma AIを無効にする方法と、Figmaによるコンテンツの学習をオプトアウトする方法を紹介します。
2. robots.txtを使用する
生成AIの学習データは、クローラーと呼ばれるBotがインターネット上を巡回して収集しています。
robots.txtは、クローラーがクロールする際に参照するファイルです。robots.txtを使用することで、クローラーに対してクロールを許可するページや許可しないページを指定できます。
robots.txtの指示に従うことは義務ではなく、一部のクローラーはrobots.txtを無視することがあります。しかし、一般的なクローラー、とくに有名な企業のクローラーであればrobots.txtを尊重することが多いため、robots.txtを活用することで生成AIに学習されるリスクを軽減できます。
robots.txtは、Webサイトのルートディレクトリーに配置します。たとえば、当サイトのrobots.txtは次のURLから参照できます。
robots.txtを使ってクローラーによるクロールを拒否したい場合、ホワイトリスト形式とブラックリスト形式の2つの方法があります。
ホワイトリスト形式は、特定のクローラーにのみクロールを許可し、それ以外のすべてのクローラーによるクロールは禁止するという形式です。ブラックリスト形式はその逆で、特定のクローラーを禁止し、それ以外のすべてのクローラーによるクロールは許可するという形式です。
生成AIの学習データとして使用されることを可能な限り防ぎたい場合は、ホワイトリスト形式を使うことがオススメです。次の例は、GoogleとBing、Yahoo!の検索エンジンのクローラーは許可し、それ以外は拒否するrobots.txtの例です。
try{(()=>{function a(e){if(!e)return;let t=e.getAttribute("tabindex")!==null,n=e.scrollWidth>e.clientWidth;n&&!t?e.setAttribute("tabindex","0"):!n&&t&&e.removeAttribute("tabindex")}var u=window.requestIdleCallback||(e=>setTimeout(e,1)),i=window.cancelIdleCallback||clearTimeout;function l(e){let t=new Set,n,r;return new ResizeObserver(c=>{c.forEach(o=>t.add(o.target)),n&&clearTimeout(n),r&&i(r),n=setTimeout(()=>{r&&i(r),r=u(()=>{t.forEach(o=>e(o)),t.clear()})},250)})}function d(e,t){e.querySelectorAll?.(".expressive-code pre > code").forEach(n=>{let r=n.parentElement;r&&t.observe(r)})}var s=l(a);d(document,s);var b=new MutationObserver(e=>e.forEach(t=>t.addedNodes.forEach(n=>{d(n,s)})));b.observe(document.body,{childList:!0,subtree:!0});document.addEventListener("astro:page-load",()=>{d(document,s)});})();}catch(e){console.error("[EC] tabindex-js-module failed:",e)}try{(()=>{function i(o){let e=document.createElement("pre");Object.assign(e.style,{opacity:"0",pointerEvents:"none",position:"absolute",overflow:"hidden",left:"0",top:"0",width:"20px",height:"20px",webkitUserSelect:"auto",userSelect:"all"}),e.ariaHidden="true",e.textContent=o,document.body.appendChild(e);let a=document.createRange();a.selectNode(e);let n=getSelection();if(!n)return!1;n.removeAllRanges(),n.addRange(a);let r=!1;try{r=document.execCommand("copy")}finally{n.removeAllRanges(),document.body.removeChild(e)}return r}async function l(o){let e=o.currentTarget,a=e.dataset,n=!1,r=a.code.replace(/\u007f/g,`
`);try{await navigator.clipboard.writeText(r),n=!0}catch{n=i(r)}if(!n||e.parentNode?.querySelector(".feedback"))return;let t=document.createElement("div");t.classList.add("feedback"),t.append(a.copied),e.before(t),t.offsetWidth,requestAnimationFrame(()=>t?.classList.add("show"));let c=()=>!t||t.classList.remove("show"),d=()=>{!t||parseFloat(getComputedStyle(t).opacity)>0||(t.remove(),t=void 0)};setTimeout(c,1500),setTimeout(d,2500),e.addEventListener("blur",c),t.addEventListener("transitioncancel",d),t.addEventListener("transitionend",d)}function s(o){o.querySelectorAll?.(".expressive-code .copy button").forEach(e=>e.addEventListener("click",l))}s(document);var u=new MutationObserver(o=>o.forEach(e=>e.addedNodes.forEach(a=>{s(a)})));u.observe(document.body,{childList:!0,subtree:!0});document.addEventListener("astro:page-load",()=>{s(document)});})();}catch(e){console.error("[EC] copy-js-module failed:",e)}
また、すべてのクローラーを拒否したい場合は、次のようにします。ただし、この場合はGoogleなどの検索結果にも表示されなくなるため注意してください。
参考:
3. メタタグを使用する
DeviantArtなどが提唱している、noai
というタグがあります。robots.txtほどは普及していない新しい規格ですが、将来的にはさらに普及する可能性があります。
robots.txtと同様に、このタグに従うことは義務ではありません。しかし、単純にクローラーをブロックするだけのrobots.txtと違い、こちらの方法ではAIによる学習を望まない旨をより直接的に表明できます。
noai
タグを使うには、対象となるWebページのHTMLの<head>
タグ内に次のように記述します。
<meta name="robots" content="noai, noimageai">
または、HTTPヘッダーに次のような記述を追加します。
X-Robots-Tag: noai, noimageai
参考:
4. スクレイピング保護機能を使用する
Cloudflareなどの一部のサービスは、AIの学習データを収集しているクローラーによるアクセスを自動的にブロックする機能を提供しています。
こうした機能を利用することで、robots.txtやnoai
タグを無視するクローラーを効果的にブロックできます。
CloudflareのAIスクレイピング防止機能の詳細については、こちらの記事で紹介しています。
AIスクレイピング防止機能をCloudflareがリリース 設定方法は?
Cloudflareが「AIクローラーをブロックする機能」をリリースしました。この機能は、コンテンツクリエーターをAIから保護することが期待されます。この記事では、新機能の詳細や設定方法、そしてAIクローラーが現在もたらしている脅威について詳しく見ていきます。
まとめ
この記事では、生成AIに自分のコンテンツを学習されることを防ぐ技術的な方法について紹介しました。
生成AIの学習データとして使用されることを可能な限り防ぎたい場合は、robots.txtやnoai
タグ、スクレイピング保護機能を活用することがオススメです。