ウェブサイトをGoogleがAI学習に利用するのを防ぐ方法

Googleは会話型のAIチャットボットである「Gemini」を提供しており、そのためにウェブ上のコンテンツを学習（トレーニング）に利用しています。

自身のウェブサイトがGoogleのAI学習に利用されないようにするには、robots.txtに以下を記述し、「Google-Extended」をブロックすればOKです。

User-agent: Google-Extended
Disallow: /

この2行を記述すれば、自身のウェブサイトがGoogleの生成AIモデルの学習に利用されるのを防ぐことが可能です。

また、下記のように記述する事で、特定のページ（ディレクトリ）のみを許可・拒否する事も可能です。

user-agent: Google-Extended
allow: /archive/1Q84
disallow: /archive/

なお、Google-Extendedを記述しても、検索結果への影響はありません。

その為、「AI による概要」（AI Overviews。Google検索の上部に表示される情報の要約）へ自身のコンテンツが利用される事を防ぐことはできません。AI Overviewは検索の一機能だからです。

Google-Extended は、Google 検索でのコンテンツの表示方法を制御する手段ではありません。検索に表示されるコンテンツを管理するには、robots.txt やその他のロボットコントロールなど、他の方法を使用します。

出典：AI による概要とウェブサイト | Google 検索セントラル

既に学習されたコンテンツは削除できない

今回紹介したのは、コンテンツがGoogleに新たに学習されるのを防ぐオプションであり、Googleに既に学習されたコンテンツを削除する事は不可能です。

Googleはこのオプションを発表する前から、ウェブ上のコンテンツを学習に利用していました。

その為、このオプションをrobots.txtに記述しても、既に自分のウェブサイトがGoogleに利用されている可能性がある点に注意しましょう。

既に学習されたコンテンツは削除できない

関連記事