OpenAIはChatGPTの開発および運用のために、ユーザーエージェント(ボットやクローラーとも呼ばれています)を使用して、世界中のウェブサイトを周回しています。
OpenAIによるAI学習やChatGPTによるウェブサイトへのアクセスをブロックするには、ユーザーエージェントをRobots.txtを利用してブロックする必要があります。
OpenAIのボット
OpenAIは以下のボット(ユーザーエージェント)を利用しています。
OAI-SearchBot
検索用のボットです。ChatGPTがウェブ検索を行う際に使用します。
GPTBot
AI学習用のボットです。GPTBotをブロックすると、サイトのコンテンツが生成AI基盤モデルの学習に使用されなくなります。
ChatGPT-User
こちらは自動的にサイトへアクセスするボットではありません。ユーザー代理アクセスです。
ユーザーがChatGPTにサイトへのアクセスを依頼した場合、ChatGPTはこのユーザーエージェントを利用してサイトへアクセスします。
例えば、ユーザーがChatGPTに「このサイトを要約して example.com」と指示した場合、ChatGPTはこのエージェントを利用して example.com へアクセスします。
robots.txtでボットをブロックする方法
robots.txtを使えば、上で記したOpenAIのボットをブロックする事が可能です。
例えば、AI学習用のGPTbotをブロックするケースを考えてみましょう。
GPTbotに自分のウェブサイトをクロールされたくない方は、robots.txtに以下の2行を追加すればOKです。
User-agent: GPTBot Disallow: /
また、以下のように記述する事で、一部のディレクトリ(サイトの一部)だけを許可・ブロックする事もできます。
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
(Allowは許可、Disallowはブロック)
GPTbotで収集した情報は、ペイウォール(課金コンテンツ)や個人情報などを削除するためにフィルタリングされます。
しかし、そうしたコンテンツを扱っているウェブサイトは、あらかじめrobots.txtに上記の記述を行い、GPTbotがウェブサイトの情報を収集するのをブロックしておくと良いでしょう。
なお、これは今後のデータ収集をブロックする方法であって、既にOpenAIに収集された情報には影響を及ぼしません。
他のボットも同様にブロックできる
OpenAIのボットは他のものも同様の手順でブロックできます。
OAI-SearchBotをブロックする場合
User-agent: OAI-SearchBot Disallow: /
OAI-SearchBotをブロックすると、ナビゲーションリンク(ChatGPTの回答下部にアイコン付きで表示されるリンク)などにサイトへのリンクが表示されなくなる可能性があります。
ChatGPTからのアクセスを望む場合は、ブロックしない方が良いでしょう。
ChatGPT-Userをブロックする場合
User-agent: ChatGPT-User Disallow: /
ChatGPT-Userをブロックした場合、ChatGPTの利用者が「example.com(あなたのウェブサイトのURL)の内容を分かりやすく解説して」といった形でウェブサイトのURLをChatGPTに貼っても、ChatGPTがサイトにアクセスできず、回答が行えない場合があります。
読者の利便性に影響が出るかもしれないので注意しましょう。
ボットの完全なブロックは不可能
robots.txtによる記述はあくまで「お願い」です。
基本的に各種ボットはrobots.txtの指示を尊重しますが、中にはrobots.txtの指示を無視するボットやサードパーティのbotを利用する事で結果的に無視した形になるケースも存在します。
OpenAIのボットも完全に防げない可能性もあるので注意しましょう。
また、ChatGPTは、GoogleやBingなどの検索結果を利用してウェブサイトの情報を取得する事もあるので、robots.txtを使ってOpenAIのボットを完全にブロックしても、ChatGPTにサイトの情報が表示される事があります。
より厳格にブロックするには?
robots.txtではなく、完全なユーザーエージェント文字列や公開IPアドレスを指定し、より厳格にOpenAIによるアクセスをブロックしたい場合は、以下の公式資料をご覧ください。
参考資料:GPTBot – OpenAI API
関連記事