ウェブサイトのクロールバジェット最適化ガイド:実践的なアプローチ

2023年7月5日 00:00|テクニカルSEO|読了目安:14 分

Googleは「クロールバジェット」について公式に何と述べているか?

まず、公式の見解を見てみましょう。Googleは自社のブログで、「『クロールバジェット』が意味するすべてをカバーする単一の用語は存在しない」と述べています。

また、Googleは、新しいページが通常1日以内にクロールされるのであれば、クロールバジェットについて心配する必要はほとんどないとも述べています。数千ページ以下の小規模なサイトでは、通常は問題なくクロールできると考えており、クロールバジェットは主に非常に大規模なウェブサイトにとっての懸念事項です。

これは一見もっともらしく聞こえますが、全てではありません。なぜなら、Google Search Consoleに登録されているサイトには必ずクロールバジェットが存在し、問題はその大きさだからです。これはクロール統計レポートで明確に確認できます。

同じ記事で、Googleは「クロールレートの制限」という概念を明らかにし、特定のサイトに対する最大取得レートを設定しています。例えば、サイトの応答が遅い場合、Googlebotはそのレートを下げる可能性があります。これは、不十分なサイトアーキテクチャ(サーバーの応答が遅い、多数のエラー、乱雑な内部リンク)、低品質または重複したコンテンツ、クローラートラップなど、多くの要因がクロールバジェットに影響を与えることを示唆しています。これらはすべて、Googlebotが「来たくない」または「来られない」原因となります。

Googlebotの「ワークフロー」と「バジェット」の割り当て

Googlebotがどのように機能するか想像してみてください:

  1. 「ルール」の確認 (robots.txt): クローラーが最初に行うことは、robots.txtファイルを確認し、アクセス可能なエリアと制限されているエリアを理解することです。
  2. 「タスクリスト」の取得 (URLリスト): 次に、クロールするURLのリストを編集します。これには、新しく発見されたリンクや、更新が必要な以前にクロールされたページが含まれる場合があります。
  3. 「パトロール」の開始 (URLのクロール): ボットはこれらのURLへの訪問を開始し、そのコンテンツを取得し、データベースに既にある情報と比較して新しいページやコンテンツの変更を特定します。
  4. 賢明な判断と「重要ルート」の優先 (ページの重要性の評価): Googleの目標は、価値のあるウェブページをできるだけ包括的かつ正確にインデックスに登録することです。しかし、インターネットは広大であり、クローラーの「エネルギー」は限られています。毎日すべてのページを訪問することはできません。そのため、どのページがより「重要」かを判断する必要があります。この「ページの重要性」スコアは、後で説明しますが、クローラーが訪問する頻度に直接影響します。
  5. 特別なケース (JavaScriptウェブサイト): JavaScriptに大きく依存するサイトの場合、Googleは特別な「レンダリングクローラー」を派遣します。ただし、これらのサイトはリソースを大量に消費するため、クロール頻度が非常に低い(例えば、四半期に一度など)可能性があることに注意してください。あなたのサイトがこのカテゴリに該当する場合、クローラーがJSを実行せずにコアコンテンツを発見し、クロールする方法を見つける必要があります。

要するに、Googleは戦略的であり、自身のクロールリソースを最適化する必要があります。より重要だと判断したページに「バジェット」を優先的に費やします。

なぜGoogleは「戦略的」である必要があるのか?バジェットに影響を与える主な要因

Googlebotは忙しく、その時間は貴重であることを忘れないでください。あなたのサイトが問題を引き起こすと、バジェットは削減されます。では、主な要因は何でしょうか?

  • サイトの応答速度 (重要な指標): これが最も重要です!サイトが遅いとクローラーはしびれを切らし、クロール効率が低下します。モバイルファーストの時代において、スピードはすべてです。
  • サイトの「健康状態」 (クローラーを行き止まりにさせない): 多数の4xx (Not Found)、5xx (Server Error)、および過剰な3xx (Redirects) はクロールバジェットを消費します。クローラーが絶えず行き止まりや回り道に遭遇すると、将来的には訪問意欲が低下します。これらのエラーページが修正されたかを繰り返し確認することも、追加のコストとなります。
  • コンテンツの質 (コンテンツは王様、バジェットにとっても): コンテンツは価値があり、ユニークで、意味的に明確でなければなりません。低品質または重複したコンテンツは、クローラーに時間の無駄だと感じさせ、それ以上のバジェットを投資しなくなります。
  • ページの「人気度」 (内部および外部リンクが重要): ページが受ける内部および外部リンクが多いほど、特に権威のあるページからのリンクが多いほど、Googleは通常それをより重要とみなし、より多くのバジェットが割り当てられます。アンカーテキストの多様性も重要です。
  • サイトアーキテクチャと技術的な詳細 (障害を作成しない): 論理的なサイト構造、明確なナビゲーション、クリーンなコード、最適化された画像、そしてrobots.txtsitemap.xmlの正しい使用はすべて、クローラーがよりスムーズかつ効率的に作業するのを助けます。逆に、混沌とした構造やクローラートラップ(無限のカレンダーループなど)はバジェットを浪費します。

「ページの重要性」とは何か?PageRankとは違う

ページの重要性はPageRankとは異なる概念ですが、関連しています。ページが重要かどうかを判断するために、Googleは以下を調査します:

  • サイト構造における位置: ページが深い階層にある(到達するのにより多くのクリックが必要)ほど、一般的には重要度が低いと見なされ、クロールされる頻度も低くなります。
  • ページのPageRank: Majestic SEOのTrust Flow (TF) や Citation Flow (CF) のようなメトリクスが参考になります。ページ自体の権威が高いほど、重要です。
  • 内部リンクスコア: ページが受ける内部リンクの数と、それらのリンクの質。
  • ドキュメントタイプ: PDFのような高品質のドキュメントは、時により重要と見なされ、より頻繁にクロールされることがあります。
  • sitemap.xmlへの包含: これにより、ページがクロールされるべきであることをクローラーに明示的に伝えます。
  • 内部リンクの量と質: ページを指す内部リンクの数と、そのアンカーテキストが関連性があり、意味のあるものであるかどうか。
  • コンテンツの質: ワード数とコンテンツのユニークさ(類似性の高いページを避ける、重複コンテンツとしてフラグが立てられる可能性があるため)。
  • ホームページからの距離と関係: ホームページは通常、最も権威のあるページであるため、それに近いページはより重要と見なされる可能性があります。

「主要ページ」のクロールを計画し、優先順位を付ける方法

URLスケジューリング: Googleはページの重要性に基づいて訪問頻度を決定します。

同じサイトの異なるページのクロール頻度データを見ると、Googleが異なるページグループを異なる方法で「扱っている」ことが明らかです。頻繁にクロールされるページは、ランキングの変動も速いです。これは、コンバージョンを促進する「主要ページ」(例:コア製品やサービスページ)の重要性を高め、クローラーをより頻繁に引き付ける方法を見つける必要があることを示しています。

クロールバジェットについてさらに知っておくべきこと

  • Search Consoleはあなたの「ダッシュボード」です: GSC内のすべてのサイトにはクロールデータがあります。頻繁に確認しましょう。
  • ログ分析はあなたの「ドライブレコーダー」です: サーバーログを分析することで、Googlebotの行動を正確に追跡し、クロールの異常をリアルタイムで検出できます。
  • 内部構造は「交通ハブ」です: 不十分な内部リンク(例:ページネーションの問題、孤立ページ、クローラートラップ)は、クローラーが本当にクロールしてほしいページを見つけてクロールするのを妨げます。
  • クロールバジェットはランキングに直接影響します: クローラーが訪問しなければ、最高のコンテンツでさえ無駄になります。サイトがより頻繁かつ徹底的にクロールされるほど、コンテンツの更新がより速く発見され、インデックスに登録され、ランキングの向上に有益です。

ページスピード:クロールバジェットを最適化するための「秘密兵器」

重要なポイント:ページの読み込み時間は、クロールバジェットに影響を与える最も重要な要因の一つです!

モバイルウェブの時代において、ユーザーはせっかちであり、クローラーも同様です。読み込みが遅いサイトは、ユーザーエクスペリエンスが悪いだけでなく、高い直帰率につながり、Googlebotにクロールバジェットを削減させます。モバイルファーストインデックスは、モバイルの読み込み速度が特に重要であることを意味します。

スピードアップの方法は?

  • サーバーサイドの最適化:

    • 良いホストを選ぶ: 高速なサーバーが基本です。
    • 不要なリダイレクトを最小限に抑える: 各リダイレクトは読み込み時間とサーバーの負荷を増加させます。
    • Gzip圧縮を有効にする: ウェブコンテンツを圧縮して転送サイズを削減します。
    • 最初のバイトまでの時間 (TTFB) を最適化する: これは、サーバーがリクエストを処理してデータの最初のバイトを返すまでにかかる時間です。短いほど良いです。
    • CDNを検討する: コンテンツ配信ネットワーク (CDN) は、ユーザーが最も近いサーバーからリソースを読み込むことを可能にし、特に国内または世界中のオーディエンスを持つサイトのアクセス速度を大幅に向上させます。
  • フロントエンドの最適化:

    • ブラウザキャッシングを活用する: ユーザーのブラウザに静的リソース(CSS、JS、画像)をキャッシュさせ、次回の訪問時に再ダウンロードする必要がないようにします。
    • リソースサイズを最適化する: 画像を圧縮し(TinyPNGなどのツールを使用)、CSSおよびJSファイルを縮小/結合します。
    • 遅延読み込みを実装する: 画像、動画、その他の画面外コンテンツの読み込みを、ユーザーがスクロールするまで遅延させます。
    • レンダリングをブロックするJavaScriptを削除する: 初期のページ読み込みに影響しないJSスクリプトをページの下部に配置するか、async / defer属性を使用して非同期に読み込みます。

「病気の」サイト = 「嫌悪する」クローラー = バジェットの削減

サーバーがクローラーに返すステータスコードを定期的にチェックすることが重要です。これは、Googleがサイトの技術的な健全性を評価する主要な方法です。

  • エラーコードを監視する: 4xxおよび5xxエラーを継続的に監視し、迅速に修正します。
  • リダイレクトを監視する: 過剰な301/302リダイレクト、特にリダイレクトチェーンがないか確認します。
  • リソースを健全に保つ: CSS、JS、画像などのリソースがアクセス可能であり(200ステータスコードを返す)、robots.txtによってブロックされていないことを確認してください。さもなければ、クローラーはページを完全にレンダリングできません。

サイトの技術的な健全性を維持することは、自分自身の健康を維持するようなものです。それはクローラーを「幸せ」に保ち、より頻繁に訪問させる意欲を高めます。

コンテンツは「価値があり」「ユニーク」でなければならない

コンテンツの質もクロールバジェットに関連しています。一般的に、より豊かでユニークなコンテンツを持つページは、より重要と見なされます。Googleがクロールするページ(青い線)としないページ(灰色の線)の数は、ページのワード数と明らかに相関しています。

したがって、コアページをより実質的で深いものにし、その「新鮮さ」を高めるために定期的に更新するようにしてください。

Canonicalタグと重複コンテンツに注意

類似したコンテンツを持つ2つのページが、単一の優先URLを正しく指すrel="canonical"タグを持っていない場合、Googleはそれらを2つの別々のページとしてクロールする可能性があり、バジェットを2倍浪費します。

Canonicalタグの管理は、eコマースサイト(例えば、多くのパラメータベースのURLを作成するファセットナビゲーションを持つサイト)や、パラメータ付きの外部リンクを受け取るサイトにとって特に重要です。ほぼ重複したコンテンツとカノニカリゼーションを適切に処理することは、クロールバジェットを最適化する上で重要な部分です。

内部リンク構造と「権威」の分配

オーガニック検索トラフィックを生成するページは、しばしば「アクティブページ」と見なされます。これらのページは、論理的にサイト構造内で目立つ位置に配置されるべきです。しかし、アクティブページ(トラフィックを得るページ)が、ホームページから15クリックも離れたサイトアーキテクチャの奥深くに埋もれているのをよく見かけます!これは、ユーザーがあなたが重要でないと考えていたコンテンツを検索していることを示しています。これらのページをサイト構造内で「昇格」させ、ユーザーとクローラーが簡単に見つけられるようにすることで、そのランキングを向上させる必要があります。

覚えておいてください:ページが深く埋もれているほど、クロールされる回数は少なくなります!

私の「収益ページ」は正しい場所にありますか?

ヒント: 特定のページグループのクロール深度を改善したい場合(ホームページに近づけたい場合)、HTMLサイトマップの作成を検討してください。これらの重要なページへのリンクをそこに配置して、クローラーに直接的なパスを提供します。

Googleはあなたのサイト構造、実際にクロールするページ、そしてトラフィックをもたらすアクティブページを比較します。あなたは以下を行う必要があります:

  1. 孤立ページを特定する: これらはサイト上に存在するが、内部リンクが指していないページです。クローラーは古いリンクやサイトマップを通じてまだ訪問しているかもしれませんが、権威を渡す内部リンクがないため、その重要性は低く、バジェットの無駄です。これらの孤立ページがまだトラフィックを生成している場合、そのコンテンツは価値があるということです。すぐにリンク構造を修正し、サイトのナビゲーションに再統合してください。
  2. 「切断された」アクティブページをリンクする: トラフィックを得ているが、主要なナビゲーションやカテゴリ構造からのリンクサポートが不十分なアクティブページを見つけます。内部リンクを最適化して、その位置を高めます。

これらのリンクの問題を迅速に特定して修正することは、クロールバジェットを最適化し、サイト全体のSEOパフォーマンスを向上させるための優れた方法です。

一般的なクロールバジェットの「キラー」(絶対に避けるべき)

  • robots.txtファイルが404を返す: 基本的な間違いです。クローラーはその指示を見つけられません。
  • 時代遅れのsitemap.xmlまたはHTMLサイトマップ: 多くの壊れたリンクを含んでいるか、更新されておらず、クローラーを誤解させます。
  • 多数の5xx / 4xx / ソフト404エラー: 前述の通り、これらはクローラーのエクスペリエンスに深刻な影響を与えます。
  • リダイレクトチェーン: 例:A→B→C、クロールの負担を増加させます。
  • 不正確なCanonicalタグ: 重複コンテンツにバジェットを浪費します。
  • 大量の重複またはほぼ重複したコンテンツ: フッターやサイドバーのテンプレート化されたコンテンツ、および未解決のHTTP対HTTPSバージョンを含みます。
  • 長いサーバー応答時間 (高いTTFB): 致命的な問題です。
  • 大きなページサイズ: 最適化されていない画像やコードは、読み込みが遅くなります。
  • AMPページのエラー (使用している場合): AMP設定が正しいことを確認してください。
  • 不十分な内部リンク構造: 重要な内部リンクにnofollowを使用したり、混沌としたリンク構造を持っていたりします。
  • フォールバックなしでのJSへの過度の依存: コアコンテンツとナビゲーションが、HTMLの代替手段(例:サーバーサイドレンダリング (SSR) またはプレレンダリング)なしで完全にJSレンダリングに依存している場合、クローラーはそれにアクセスできない可能性があります。

結論:クロールバジェットを最適化するために、これを行う必要があります

Googlebotがあなたのサイトをより「熱心に」訪問し、コアページを優先的にクロールするようにしたいですか?以下の点を心に留めておいてください:

  1. あなたのアセットを知る: コアページ(トラフィックとコンバージョンをもたらすページ)を明確に特定し、GSCとログ分析を通じてGooglebotの現在のクロール行動を理解します。
  2. スピード!スピード!スピード!: ページ読み込み速度を包括的に改善します。これが最優先事項です。
  3. 内部リンクを最適化する: コアページを発見しやすい場所(ホームページの近く)に配置し、明確で論理的な内部リンク構造を確保し、権威がスムーズに流れるようにします。
  4. 孤立ページを排除する: 内部リンクが指していない価値のあるページを修正します。
  5. コアページのコンテンツを充実させる: コンテンツの質とユニークさを向上させます。
  6. コンテンツの新鮮さを維持する: コアページを定期的に更新します。
  7. 低品質および重複コンテンツをクリーンアップする: ジャンクコンテンツに足を引っ張られないようにします。
  8. 技術的なサイトの健全性を維持する: あらゆる種類の技術的なエラーを避けます。

これを行うことで、あなたのクロールバジェットは自然に最適化され、サイトのSEOパフォーマンスは新たな高みに達するでしょう!