ChatGPT (OpenAI) によるWebサイトの勝手なクローリングと学習を拒否する方法

ChatGPTを運営するOpenAIは、次なるAIの学習のためのクローリングを開始し、それをWebサイト側が拒否できる方法を発表しました。

ChatGPT(OpenAI)による学習を拒否するためには、GPTBotというクローラーのアクセスを拒否する必要があります。

そのための方法は2つあります。

1 . robots.txtで拒否する方法

多くのWebサイトではrobots.txtというファイルをドメイン下に置いています。

robots.txtは、クローラに対して、自分のWebサイトのどのページにアクセスしてよいか、もしくはどこをアクセス禁止するかについての情報を記述するものです。

OpenAIによるWebサイトのクローリングを拒否するには、そのrobots.txtに以下の記述を加えるだけです。

User-agent: GPTBot
Disallow: /

特定のディレクトリだけ拒否するには

上記で紹介した方法だと、サイトの全ページへのクローリングを拒否できます。

下記の方法では、サイトの/ok-directory/というディレクトリへのクローリングを許可し、その上で/ng-directory/というディレクトリへのクローリングを拒否できます。

User-agent: GPTBot
Allow: /ok-directory/
Disallow: /ng-directory/

Allow: と記述すると許可し、Disallow: と記述すると拒否するという仕様です。

OpenAIのクローラーのUser Agent テキスト

なお、User agentのテキストとして下記の情報でアクセスが来るとしています。

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

2 . IPアドレス（レンジ）を拒否する方法

こちらはさらに高度なやり方にはなりますが、IPアドレスをレンジ指定して拒否する方法も可能です。

OpenAIはGPTBotのIPアドレスレンジを公開していますので、これを指定して拒否すればOKです。

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

最新のIPアドレスはこのURL（https://openai.com/gptbot-ranges.txt）で見られます。

注意点

詳しい人に設定してもらいましょう

なお、注意点として、この設定を間違えるとSEO的に大失敗する可能性があるので慎重に、もしくは詳しい人に設定してもらいましょう。

なぜなら、誤ってあらゆるクローラーをブロックしてしまい、GoogleのクローラーがアクセスできなくなることによりSEOの順位が全部落ちてしまう可能性があるからです。

基本的にブロックしないほうが良い（弊社の見解）

これは各社見解が違うかもしれませんが、弊社としてはブロックしません。

なぜなら、これから検索が弱くなってSEO面のトラフィックが減るのであれば、AIに頼るしかありません。AI、たとえばChatGPTに引用してもらったりするほうがアクセスを獲得できる可能性があるということです。

そのため、AIのクローリングを許可することで、引用してリンクしてもらい、アクセス増加のチャンスを期待するほうが良いだろうという結論です。

逆に、ブロックしてしまうと永遠にSEOだけで戦うことを決めていることになり、そのSEOすら市場が縮小する可能性があるので、結果として数年後に後悔することになると思われます。