コラム

クロールバジェットとは?定義や影響を受けるWebサイトの特徴を解説

クロールバジェットは、検索エンジンがWebサイトの情報を収集する際の行動の上限です。Web上の膨大な数のページの中から、検索結果に必要なコンテンツのみを抽出するために設けられています。

この記事では、クロールバジェットの概要や影響を受けるWebサイトの特徴などを解説していきます。

大規模なサイトを運営している、将来的に自社サイトの規模が大きくなる方は、ぜひ参考にしてください。

クロールバジェットとは?

クロールバジェットは、1つのWebサイトに対してクロールできるページ数の上限です。

Web上には膨大な数のページが存在し、日々増え続けています。すべてのページをクロールすることは、検索エンジンの能力を超えてしまうため、現実的ではありません。

そこでクロールバジェットが設定され、必要なページのみインデックスするように調整がなされています。基本的に数1000ページ以上あるような大規模なサイトでなければ、気にする必要がないと言われています。

しかし、クロールバジェットの最適化はクロールの効率化にもつながるため、仕組みを理解してサイト構造を調整することが重要です。

クローラーとは?

クローラーは、Webサイト内を回遊し、ページの情報を収集するロボットです。各ページを解析し、検索順位を決定する要素を検索エンジンに伝える役割があります。

クローラーも、収集できる情報や回遊できるページに限りがあるため、クロールバジェットが設けられています。

Googlebotとは?

クローラーにはいくつかの種類があり、Googlebotはその総称です。スパイダーやロボットと呼ばれることもあります。

Googlebotは以下2種類が存在し、Webサイトはいずれかによってクロールされます。

  • Googlebot Desktop
  • Googlebot Smartphone

上記の内、検索順位の決定の指標となっているのはGooglebot Smartphoneです。SEOで上位表示を狙う際は、スマホ用のGooglebotに正しく情報を読み取ってもらえるように最適化することが重要です。

クロールバジェットの定義

クロールバジェットは、以下2つの要素で定義されています。

  • クロール頻度の制限
  • クロールの必要性

それぞれ詳しく解説していきます。

クロール頻度の制限

クロールの頻度は、次の要素で制限されます。

  • Googlebotがクロール時に使用可能な同時並行接続の数
  • 次回の情報取得までに必要な待ち時間

クロールの実行に制限がなくなると、クローラーは常にWebサイトにアクセスを続けることになります。Webサイトのサーバーに負荷をかけるため、他のユーザーの利便性が損なわれないように制限が設けられています。

またクロール頻度の制限は、以下の要素で変動することがあります。

  • Webサイトの更新頻度
  • Googleサーチコンソールで設定した制限

Webサイトが頻繁に更新されていると、Googlebotの同時接続可能数が増えます。一方で更新頻度が下がったり、サーバーからエラーが返されたりする場合はクロールの回数も減少します。

クロールの必要性

検索エンジンからクロールの必要がないと判断されたWebサイトは、クロールの頻度が少なくなります。

被リンクを獲得している、アクセス数が多いなどのサイトは、人気が高いと判断されてクローラーが頻繁に訪れる傾向にあります。

一方でアクセスが少ない、更新が停滞しているサイトは、クロールの必要性がないと判断されやすくなります。

クロール頻度の向上はSEOにおいて重要であるため、定期的に更新するようにしましょう。

クロールバジェットの影響を受けるWebサイト

クロールバジェットの影響を受けるのは、数1000以上のページ数と、下記のような特徴があるWebサイトです。

  • コンテンツの生成頻度が高い(週1以上)
  • 日常的にコンテンツが更新される

具体的には、大規模なECサイトやCGMサイトが該当します。

上記のようなサイトはコンテンツが重複しやすく、対策なしではクローラビリティの低下が危惧されます。そのため、運営者側で意識的に工夫をしないと、クロールバフェットの影響を受けやすくなります。

一方で、上記に満たない小規模なWebサイトは気にする必要がないと、Googleも公言しています。

まず重要なのは、以下で述べるように、クロールの割り当てとは、ほとんどのパブリッシャーの方々にとって気にすべきものではない、ということです。新しいページが公開された当日にクロールされることが多い場合、ウェブマスターの方がクロールの割り当てを重視する必要はありません。同様に、サイトの URL が数千もない場合、そのサイトのクロールはたいてい効率的に行われます。

引用:Googlebot のクロールの割り当てについて|Google検索セントラル

 

将来的に大規模なサイトを目指している場合は、クロールバジェットを意識した対策をしておきましょう。

クロールバジェットの影響を少なくする方法

クロールバジェットの影響を少なくするには、以下6つの方法でクロールを最適化する必要があります。

  • 削除されたページに404・410エラーを設定する
  • 低品質なコンテンツの削除
  • robots.txtの使用
  • URLの正規化
  • XMLサイトマップの最適化
  • リダイレクトチェーンの調整

それぞれ詳しく解説していきます。

削除されたページに404・410エラーを設定する

Googlebotは、404と410エラーを返すページを、再度クロールしないように設定されています。

そのため、ページを削除したらいずれかのステータスコードを返すように設定すれば、クロールバジェットを無駄に消費することがありません。

低品質なコンテンツの削除

低品質なコンテンツをそのままにしておくと、クローラーに余計なページを回遊させてしまいます。

過去のキャンペーンやセールのページなどがそのままになっている場合、削除しましょう。

robots.txtの使用

robots.txtを使用すれば、クロールする必要が無いページを検索エンジンに伝えられます。

Googlebotは何も指示がなければ、サイト内のすべてのページをクロール対象とします。無駄なリソースを消費させないために最適化しておきましょう。

URLの正規化

重複・類似しているページがある場合、URLを正規化すれば指定した1ページのみをクロールさせられます。

canonicalタグやリダイレクトを使って、特定の1ページにGooglebotを誘導しましょう。

XMLサイトマップの最適化

XMLサイトマップは、クロールして欲しいページを検索エンジンに伝えるための地図です。

クロールの必要がないページをXMLサイトマップから削除すれば、Googlebotが効率的に回遊できるようになります。

リダイレクトチェーンの調整

リダイレクトチェーンは、リダイレクトが連鎖的に複数回行われる処理のことです。リダイレクトを過剰に行うと、クロールの効率はもちろん、ユーザビリティの低下にも繋がります。

Googleもリダイレクトチェーンは避け、やむを得ず行う場合は5回未満に収めるよう言及しています。

リダイレクトのチェーンを避ける。Googlebot は複数のリダイレクトの「チェーン」(例: ページ 1 > ページ 2 > ページ 3)に含まれる最大 10 個のホップをたどることができますが、最終的な宛先に直接リダイレクトすることをおすすめします。直接リダイレクトできない場合は、チェーン内のリダイレクトの数を 5 個未満(理想的には 3 個以下)に抑えてください。リダイレクトのチェーンを使用すると、ユーザーにとってはレイテンシが増大します。また、一部のユーザー エージェントとブラウザは長いリダイレクト チェーンに対応していません。

引用:リダイレクトに関する戦略について計画する|Google検索セントラル

 

まとめ:大規模なWebサイトはクロールバジェットの最適化が必須

クロールバジェットは、大規模なWebサイト以外では気にする必要はありません。

しかし、現状は小規模でも運営していくうちにページ数が増え、クロールに制限がかかる可能性は考えられます。検索エンジンの仕組みやGooglebotについての理解を深め、適切な対策を講じましょう。

弊社のSEOサービス「ランクエスト」では、お客様ごとに専任のコンサルタントがつき、戦略立案からコンテンツ制作、効果測定まで、すべて対応いたします。SEO対策にお悩みの方は、お気軽にご相談ください。

関連したコンテンツ

最新のコンテンツ

TOP

SEO無料相談

受付時間 平日9:00~18:30

0120-790-671