Search Consoleで「検出 – インデックス未登録」(これらのページはインデックス登録されていないか、Google で配信されません)という表示が出ることがあります。
グーグルはヘルプページで、それが「サーバーの過負荷」に関連しているかもしれないと書いています…
しかし、グーグルのジョンミューラーはこれからご紹介する動画セッションで、全く別の問題であると回答しています。
(Googleのヘルプサイトと担当者の発言が違うというのはかなり厄介ですが、仕方ありません)
この記事では、担当者のミューラー氏の発言をまとめます。
【目次】
- Google担当者が説く3つの解決法
- 以下、Google担当者の回答
- Googleがオススメの3つの解決策
- 1.URL生成に、技術的問題があるかも → あれば修正しよう
- 2.内部リンクに問題があるかも → Screaming Frogを使ってみよう
- 3.ページの品質が低いかも → ページ数を減らす、品質を高める
- 結論
- Googleの公式ドキュメントでは
- 少ないページ数でも、それぞれが価値が高ければOK
- 筆者の個人的見解(もう1つの解決策)
Google担当者が説く3つの解決法
とても長い回答なので、まず結論から伝えると、
ミューラー氏が考える解決策は、3つ。
- (意図せずに)自動生成しているたくさんのURLを修正する
- 不適切な内部リンク構造を修正する
- サイト全体をより強力にするためにページ数を減らす
のどれかで解決できると言っています。
以下、Google担当者の回答
Google担当者が回答している動画 です。11分20秒のあたりで回答しています。
以下より文字に起こします。
ミューラー氏:
Googleが把握しているWebページの99%が「検出はしているが、現在はインデックス未登録」として除外されています。
具体的にどういう状況かというと、サイトマップや内部リンクを通して一応は検出している(=Googleは、そのページの存在を知っている)ということを意味しますが、
Googleは、少なくとも現時点では、そのページをクロールするほどの価値がないと判断しているということです。
ページ数が多いWebサイトの場合、よく起きます。
それは、単純に内部リンクがシンプルでない場合や、コンテンツの問題、自動生成ページのみの場合、単にデータベースをオンラインにしただけの場合が当てはまります。
対象のサイトを見て、多くのコンテンツがあると認識していても、Googleは「ほとんどが同程度の価値のページなのでインデックスする必要はない」と判断してしまうのです。
Googleがオススメの3つの解決策
ミューラー氏:
それでは、あなたのサイトの99%がインデックスされない場合の対策を紹介しましょう。
1.URL生成に、技術的問題があるかも → あれば修正しよう
まず最初に、URL生成における技術的な問題があるかもしれません。これをいくつか見てみましょう。
- あなたが誤って様々なパターンのURLを生成していませんか?
- 「微妙に違うけど、非常によく似ている」ようなページがたくさんあったりしませんか?
たとえば、URLに含まれているパラメータのように大文字、小文字、これらすべてが重複したコンテンツにつながる可能性があります。
また、これらの重複URLを多数発見した場合は、このページの一部のバリエーションが既にあるため、実際にはこれらすべての重複をクロールする必要はないと思われるかもしれません。
これが最初にチェックしたいことです。つまり、「重複とみなされるページが無いか?」についてチェックすべきということです。
2.内部リンクに問題があるかも → Screaming Frogを使ってみよう
それから私がここでする次のステップは、内部リンクが全ての(インデックスさせたい)ページをつなげているかチェックすることです。
つまり、Googleがあなたのウェブサイト上のページの全てをリンクを通して動き回ることができて、そして最後(末端)のページまでいけるか。
Screaming FrogやDeepCrawlなどのようなクローラーツールを使って、これを大まかにテストできます。
これらのツールは優れています。
そしてクローラーツールが「あなたがインデックスさせたい全URL」を見つけられれば、ひとまず問題ないと判断できます。
3.ページの品質が低いかも → ページ数を減らす、品質を高める
ツールを使って、そのクロールがうまくいくならば、次はこれらのページの品質に注目しましょう。
たとえば、あなたが2000万ページについて話していて、それらの99%がインデックスされていない状態。あなたのウェブサイトのほんのごく一部だけがインデックスされている状態の場合。
そんなときには、ページを現在の50%や10%に減らしてみてください。
たとえば、もともと2000万ページあったものを100万ページに減らすと、Googleが100万ページを見て、「これには価値がある、もっとクロールしよう」と思うかもしれないということ。
ただページを減らすのも良いですが、複数のページを1つのURLにしてコンテンツを結合するもの良いでしょう。
結論
ミューラー氏:
これまでの話をまとめます。以下の3つに注意してください。
1.誤って多くのURLを生成していないことを確認してください。
2.内部リンクが正しく機能していることを確認してください。
3.ページ数を減らし、コンテンツを結合してコンテンツをより強力にすることを試みてください
(文字起こし&翻訳は、以上です)
Googleの公式ドキュメントでは
ちなみにGoogleの公式Webサイトにあるドキュメントでは以下のように記述されています。
検出 – インデックス未登録ページは Google により検出されましたが、まだクロールされていません。これは通常、Google が URL をクロールしようとしたものの、サイトへの過負荷が予想されたため、クロールの再スケジュールが必要となった場合です。そのため、レポート上で最終クロール日が空欄になっています。
https://support.google.com/webmasters/answer/7440203#discovered__unclear_status
つまり、「Googleが負荷を受けてまでクロールする価値はないと判断した」ということですね。上記のミューラー氏の話と合わせると納得できる内容ですね。
したがって、我々サイト運営側としては「このサイトは価値が高いからクロールしてね」と伝える必要があります。そう伝わるように行動を起こす必要があります。
少ないページ数でも、それぞれが価値が高ければOK
私はこの解説動画を見ていて発見がありました。
「たくさんページはあるが、その全てがそこそこの価値のコンテンツ」
よりも、
「少ないページ数だが、その全てが高い価値のあるコンテンツ」
のほうがインデックスには強いということです。
たしかに、この傾向は私の個人的経験を思い返しても納得がいきます。そして、もちろん記事系・ブログ系のサイトなら、この対策は簡単でしょう。全ての記事をきちんと高品質に保てば良いだけです。
しかし、エリア名などでロングテールを取らなければいけない大規模サイトについては、対策方法が難しく、上記のジョンミューラー氏の言うようなことをやるべきです。内部リンクを上手にマネジメントするのも非常に大事ですね。
筆者の個人的見解(もう1つの解決策)
ただ、私はもう1つの解決策があると考えています。
そして恐らくもっとも有効なもの。それは外部からの「被リンク」でしょう。コンテンツに本当に高い価値があって、それをGoogleが認識してくれないのであれば、もうあとは被リンクをやるしかないのではないでしょうか。もちろんサイテーションも効くでしょう。
なぜなら、被リンクやサイテーション(言及)があれば、Googleが「クロールする価値があるかも」と判断してくれる可能性は高いと考えられるからです。
大規模サイトの運営者は特に、外に出ていってサイトの認知度を上げたり、SNSでバズったりすることも、1つの有効な施策であると認識しましょう。