OpenAIによるChatGPTのクローラーをブロックする方法

OpenAIはChatGPTの開発および運用のために、ユーザーエージェント(ボットやクローラーとも呼ばれています)を使用して、世界中のウェブサイトを周回しています。

OpenAIによるAI学習やChatGPTによるウェブサイトへのアクセスをブロックするには、ユーザーエージェントをRobots.txtを利用してブロックする必要があります。

OpenAIのボット

OpenAIは以下のボット(ユーザーエージェント)を利用しています。

OAI-SearchBot

検索用のボットです。ChatGPTがウェブ検索を行う際に使用します。

GPTBot

AI学習用のボットです。GPTBotをブロックすると、サイトのコンテンツが生成AI基盤モデルの学習に使用されなくなります。

ChatGPT-User

こちらは自動的にサイトへアクセスするボットではありません。ユーザー代理アクセスです。

ユーザーがChatGPTにサイトへのアクセスを依頼した場合、ChatGPTはこのユーザーエージェントを利用してサイトへアクセスします。

例えば、ユーザーがChatGPTに「このサイトを要約して example.com」と指示した場合、ChatGPTはこのエージェントを利用して example.com へアクセスします。

robots.txtでボットをブロックする方法

robots.txtを使えば、上で記したOpenAIのボットをブロックする事が可能です。

例えば、AI学習用のGPTbotをブロックするケースを考えてみましょう。

GPTbotに自分のウェブサイトをクロールされたくない方は、robots.txtに以下の2行を追加すればOKです。

User-agent: GPTBot
Disallow: /

また、以下のように記述する事で、一部のディレクトリ(サイトの一部)だけを許可・ブロックする事もできます。

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

(Allowは許可、Disallowはブロック)

GPTbotで収集した情報は、ペイウォール(課金コンテンツ)や個人情報などを削除するためにフィルタリングされます。

しかし、そうしたコンテンツを扱っているウェブサイトは、あらかじめrobots.txtに上記の記述を行い、GPTbotがウェブサイトの情報を収集するのをブロックしておくと良いでしょう。

なお、これは今後のデータ収集をブロックする方法であって、既にOpenAIに収集された情報には影響を及ぼしません。

他のボットも同様にブロックできる

OpenAIのボットは他のものも同様の手順でブロックできます。

OAI-SearchBotをブロックする場合

User-agent: OAI-SearchBot
Disallow: /

OAI-SearchBotをブロックすると、ナビゲーションリンク(ChatGPTの回答下部にアイコン付きで表示されるリンク)などにサイトへのリンクが表示されなくなる可能性があります。

ChatGPTからのアクセスを望む場合は、ブロックしない方が良いでしょう。

ChatGPT-Userをブロックする場合

User-agent: ChatGPT-User
Disallow: /

ChatGPT-Userをブロックした場合、ChatGPTの利用者が「example.com(あなたのウェブサイトのURL)の内容を分かりやすく解説して」といった形でウェブサイトのURLをChatGPTに貼っても、ChatGPTがサイトにアクセスできず、回答が行えない場合があります。

読者の利便性に影響が出るかもしれないので注意しましょう。

ボットの完全なブロックは不可能

robots.txtによる記述はあくまで「お願い」です。

基本的に各種ボットはrobots.txtの指示を尊重しますが、中にはrobots.txtの指示を無視するボットやサードパーティのbotを利用する事で結果的に無視した形になるケースも存在します

OpenAIのボットも完全に防げない可能性もあるので注意しましょう。

また、ChatGPTは、GoogleやBingなどの検索結果を利用してウェブサイトの情報を取得する事もあるので、robots.txtを使ってOpenAIのボットを完全にブロックしても、ChatGPTにサイトの情報が表示される事があります。

より厳格にブロックするには?

robots.txtではなく、完全なユーザーエージェント文字列や公開IPアドレスを指定し、より厳格にOpenAIによるアクセスをブロックしたい場合は、以下の公式資料をご覧ください。

参考資料:GPTBot – OpenAI API

Instagramには公式のフォローボタンが存在しない

X(旧Twitter)には外部サイトに設置できる公式のフォローボタンが存在しますが、Instagramには公式のフォローボタンが存在しません。

その為、フォローボタンを自身のウェブサイトやブログに掲載したい場合は、自前で作る必要があります。

かつて存在した公式のフォローボタン

Instagramは、かつて以下のような紺色のフォローボタン(名前は「バナー」)を公式に提供していました

「View on Instagram」と書かれた紺色のInstagram公式フォローボタン

しかし、このフォローボタンはもう何年も前に廃止されています。

正確な時期は分かりませんが、2016年ごろのリニューアルと前後して廃止されたと考えられます。

そのため、現在はInstagramの公式フォローボタンを作成することはできません。

虹色のボタンは存在しない

世の中には、今でもInstagramのフォローボタンを設置しているウェブサイトやブログが存在します。

筆者もピンク色や虹色(暖色のグラデーション)のフォローボタンを見た事があります。

しかし、それらは全て非公式のものです。

先述の通り、Instagramはフォローボタンやバナーを提供していません。今、巷で見かけるフォローボタンは全て第三者が自作したものです。

フォローボタンを設置したい方は、自分でフォローボタンをデザインして設置するしかありません。

フォローボタンは自作するしかない

Instagramのフォローボタンを自作したい方は、公式がアイコンに使える素材を提供しているので、これをフォローボタン(Instagramアカウントへの画像リンク)として活用すると良いでしょう。

公式素材を利用する際は、使用のガイドライン(利用規約)を確認して、独自のフォローボタンを作成・設置しましょう。

ガイドラインは日本語なので分かりやすいです。

虹色のボタンの作り方

「非公式でもいいからグラデーション(虹色)のフォローボタンを作り、サイトやブログに設置したい!」という方は、以下の記事が参考になります。

こちらの記事では、アイコンをフォントファイル形式で入手できるサイト「Font Awesome」で配布されているInstagramのアイコンとHTML・CSSを利用してInstagramのフォローボタンを作成しています。

ちなみに、Font Awesomeで配布されているInstagramのアイコンは以下の2種類です。

まとめ

Instagramには公式のフォローボタンが存在しないので、自身のウェブサイトやブログにフォローボタンを設置したい方は、自作しましょう。

最低限のHTMLやCSSの知識が必要になりますが、そこまでハードルは高くないと思います。

余談:管理画面のバナーページ

余談ですが、Instagramがフォローボタンを提供していた際は、パソコンからInstagramにログインして、「プロフィールの編集」→「バナー(英:Badges)」と進むと、フォローボタンを生成することができました。

※当時のURL:https://instagram.com/accounts/badges/

現在はこのページも無くなっており、URLにアクセスしても何も表示されません。

ウェブサイトをGoogleがAI学習に利用するのを防ぐ方法

Googleは会話型のAIチャットボットである「Gemini」を提供しており、そのためにウェブ上のコンテンツを学習(トレーニング)に利用しています

自身のウェブサイトがGoogleのAI学習に利用されないようにするには、robots.txtに以下を記述し、「Google-Extended」をブロックすればOKです

User-agent: Google-Extended
Disallow: /

この2行を記述すれば、自身のウェブサイトがGoogleの生成AIモデルの学習に利用されるのを防ぐことが可能です

また、下記のように記述する事で、特定のページ(ディレクトリ)のみを許可・拒否する事も可能です。

user-agent: Google-Extended
allow: /archive/1Q84
disallow: /archive/

なお、Google-Extendedを記述しても、検索結果への影響はありません。

その為、「AI による概要」(AI Overviews。Google検索の上部に表示される情報の要約)へ自身のコンテンツが利用される事を防ぐことはできません。AI Overviewは検索の一機能だからです。

Google-Extended は、Google 検索でのコンテンツの表示方法を制御する手段ではありません。検索に表示されるコンテンツを管理するには、robots.txt やその他のロボット コントロールなど、他の方法を使用します。

出典:AI による概要とウェブサイト | Google 検索セントラル

既に学習されたコンテンツは削除できない

今回紹介したのは、コンテンツがGoogleに新たに学習されるのを防ぐオプションであり、Googleに既に学習されたコンテンツを削除する事は不可能です。

Googleはこのオプションを発表する前から、ウェブ上のコンテンツを学習に利用していました

その為、このオプションをrobots.txtに記述しても、既に自分のウェブサイトがGoogleに利用されている可能性がある点に注意しましょう。