コラム

クローラー(Crawler)とは?上位化のための対策を紹介

 

SEO対策で上位化を目指すのであれば、検索エンジンの「クローラー」についてよく理解しておく必要があります。
しかし、「クローラーってそもそも何?」「SEOでクローラーを意識するなら、具体的にどんなことをすればいいの?」といった疑問も浮かんでくることでしょう。

そこで今回はクローラー(クローリング)の役割や対策方法などを解説します。

これからSEO対策を始める方や、SEO対策を始めたもののなかなか順位が改善されずにお悩みの方は、ぜひご覧ください。

<SEO対策について詳しく知りたい方はこちら>SEO対策とは?SEO対策のメリット・デメリットと対策方法を詳しく解説

クローラーとは?

クローラーとは、Web上に無数に存在するサイトを巡回して、各サイトの情報を収集する、検索エンジンのプログラムのことです。

既存のWebサイトのリンクをたどってページを移動(クローリング)し、収集した情報を検索エンジンのデータベースに保存(インデックス)します。
ここでインデックスされた情報をもとに、検索エンジンが各サイトを評価することで、検索クエリごとの検索結果の順位が決まるのです。

クローラーについて詳しく知りたい方はこちら>>>

Googleにおける検索エンジンの仕組み

検索エンジンはそれぞれ別個のクローラーを有していますが、検索における基本的な仕組みは同一です。
そのうえで今回は、Googleの検索エンジンの仕組みを解説します。

Googleの検索エンジンは、「クローリング」「インデックス作成」「検索の実行」の、3つのプログラムで動いています。
それぞれのフローごとに詳しく見ていきましょう。

クローリング

Web上に存在する膨大なサイト群をクローラーが巡回し、情報を集めます。

具体的には、下記の情報を収集しています。

【クローラーが収集している情報の一例】

  • HTML
  • CSS
  • JavaScript
  • テキスト
  • 画像
  • PDF

クローラーがWebページを見つけたら、パーシング(Pershing)とよばれる解析作業を開始し、パーシングの結果をもとに次の工程であるインデックス作成・登録へと移ります。

インデックス登録

クローラーがパーシングした情報は、Googleのインデックスとして登録されます。

インデックス登録の過程で新たなリンクが見つかれば、クローラーはリンク先のページへ遷移し、再度パーシングを始めます。
検索エンジンはクローリング→パーシング→クローリングの行程を繰り返し、インデックスするデータベースを充実させているのです。

ただし、クローリングされたからといって、すべてのWebページがGoogleにインデックス登録されるわけではありません。

ここで、Googleが掲げているミッションを見てみましょう。

Google の使命は、世界中の情報を整理し、世界中の人がアクセスできて使えるようにすることです。

引用元:Google – Google について、Google の文化、企業ニュース

Googleの目的はあくまでも、使う価値のある世界中の情報を整理することなので、価値のないサイトはインデックス登録されない場合もあります。
そのため、SEO対策では、ユーザーにとって価値のあるサイトを作成することが大前提といえます。

インデックス登録について詳しく知りたい方はこちら>>>

検索の実行

ユーザーがキーワードを入力して検索したら、検索エンジンはクエリをもとに、インデックスのなかから最適なWebサイトを表示します。

検索結果の順位は、200以上もの要素を総合的に判断したうえで、Googleのアルゴリズムをもとに決定されます。
残念ながら、このアルゴリズムの詳細は明かされていません。
しかし、Googleが公開している情報をみると、大きく5つの項目に分けられることがわかります。

【Googleのアルゴリズムの大別】

  1. 検索クエリの意味:ユーザーがどんな意図で検索しているか
  2. コンテンツの関連性:検索クエリと関連性の高いコンテンツであるか
  3. コンテンツの質:専門性、権威性、信頼性を有したコンテンツであるか
  4. ウェブサイトのユーザビリティ:ユーザーにとって読みやすいページであるか
  5. コンテキストと設定:現在地や過去の検索履歴、検索設定などの情報と関連性の高いページであるか

参照元:Google – Google 検索の仕組み

上記の5つの判断軸となる、細かな項目が200種類以上あるということです。
Googleの検索エンジンは、さまざまな要素を多面的に評価して各サイトの検索順位を決めているからこそ、ユーザー一人ひとりのニーズに沿った検索結果を提供できているのです。

クローラビリティを高めるメリット

クローラーの巡回のしやすさ表す指標を「クローラビリティ」といい、クローラビリティを高めることがSEO対策の効果を左右します。

ここからは、クローラビリティを改善するメリットについて、より掘り下げた内容を解説いたします。

メリット①インデックス登録されやすくなる

クローラーに巡回してもらうことは、SEO対策において大前提です。
そのサイトやページをクローラーが巡回しなければ、インデックス登録されず、当然、ユーザーがいくら検索しても検索結果に表示されることもありません。

つまり、裏を返せば、クローラビリティを高めておくことでインデックス登録され、検索結果に表示される可能性が高まるということです。

Web上には数えきれないほどのサイトがあり、新しいサイトやページはこうしている瞬間にも次々と生まれているため、クローリングには一定の期間を要します。

そのため、いち早くインデックス登録されるには、クローラビリティを高めておくことが不可欠なのです。

インデックス登録されやすくするための方法はこちら>>>

メリット②検索順位が上がりやすくなる

新規にサイトやページを公開した際だけでなく、既存のサイトを更新した際もクローラーは無視できません。
なぜなら、新しい情報が検索エンジンに認知されなければ、せっかく更新したサイトも検索エンジンにとっては古い情報のままだからです。

たとえば、順位を改善するためにコラムをリライトして内容を充実させても、その後クローリングされなければ、リライト前の内容で引き続き評価されてしまいます。

常に最新の情報を検索エンジンに伝え、適切に評価してもらうためにも、SEO対策においてクローラーを意識することは非常に重要です。

【優先度順】クローラビリティ対策のポイント

クローラビリティ対策の具体的な方法は、主に8つあり、弊社SEOサービス『ランクエスト』でも必須の施策として実施しております。

ここでは、『ランクエスト』のSEOコンサルタントチームが実際に行っているクローラビリティ対策の内容を、押さえるべきポイントとともに解説いたします。

新規にページをアップする際にも、既存のページを更新する際にも実施できるものばかりですので、ぜひご参考ください。

①リンク階層を意識してサイトを構成する

Webサイトは、さまざまなページで構成されていますが、いずれのページも2~3クリック程度で遷移できるような構造を意識しましょう。

クローラーは、サイト内のリンクをたどって各ページを巡回するので、何度もクリックしなければ到達できないようなページは、クローラーもなかなか辿り着きません。

なお、以前は「ディレクトリ階層が浅いURLのほうがクローラビリティの面で有利だ」という言説がありました。
しかし2023年現在は、URLのディレクトリ階層そのものはクローラビリティに大きく影響しないとされています。

Googleのウェブマスター・トレンド・アナリストとして知られるジョン・ミューラー氏は、X(旧 Twitter)にて「Google検索ではURLの階層はそれほど重要ではない」と述べています。

大切なのは、あくまでもページに到達するまでのクリック回数なので、たとえ5階層目にあるページでも、2~3クリックで到達できるようにリンクを設置すればよいのです。
とはいえ、5階層目にあるページへのリンクをトップページに設置するとは、あまり自然には考えられません。
ページの階層とリンクの構造には大きく乖離がないほうが、サイト管理の面でもヒューマンエラーが起きにくいはずです。

クローラビリティの面ではリンクのクリック回数を意識しつつ、理にかなったリンク設置と理にかなったページ管理を心がけることが大切です。

リンク階層を意識したサイトを構成についてはこちら>>>

②Googleサーチコンソールでクローリングをリクエストする

サイトやページを新規に作成したら、GoogleサーチコンソールのURL検査ツールを使い、クローリングを促します。

クローラーは、既存のページのリンクをたどりますが、どこからもリンクされていない新しいサイトやページは、クローラーに見つけてもらえない可能性もあります。

そんなときの心強い味方が、GoogleサーチコンソールのURL検査ツールです。
所定の手順を踏めば、クローラーに「新しくこんなページを公開しましたよ」と知らせて、新規に立ち上げたサイトやページでもクローリングしてもらえるようになります。

具体的な手順は以下をご覧ください。

手順①Googleサーチコンソールにログインし、メニューの「URL検査」をクリックする

「URL検査」は左側のメニューにあります。

手順②リクエストしたいURLを上部の検索窓に入力する

URL入力後、Enterキーを押すと「Googleインデックスからデータを取得しています」とメッセージが表示されます。
画面が切り替わるまで待ちましょう。

手順③「インデックス登録をリクエスト」をクリックする

この手順を済ませて無事にリクエストが送信されたら、数日~1週間程度でクローラーが巡回し、特に問題なければインデックス登録されます。

インデックス登録されたかどうかを確認するには、Googleの検索窓に対象のURLを入力して検索しましょう。
対象のページが検索結果に表示されれば、そのページはインデックス登録されたということです。

Googleサーチコンソールのリクエスト方法を詳しく知りたい方はこちら>>>

③リンク切れの内部リンクをなくす

サイト内のリンクは常に確認し、リンク切れが起きている場合はすぐに対策を講じましょう。

クローラーはサイト内のリンクをたどって各ページを巡回するため、内部リンクが切れているとクローラーが適切に巡回できなくなってしまいます。
また、リンク先のページが閉鎖している状態は、ユーザーにとってもストレスに感じられるため、クローラビリティだけでなくユーザーの満足度の低下にもつながります。

リンクが切れている場合は、リンク元かリンク先のどちらに原因があるのかをまず確認してみてください。
遷移先のページが存在しているにもかかわらず、URLに入力ミスがあるのであればリンク元に原因があるので、正しいURLに修正しましょう。

遷移先のページが非公開になっている場合は、何かの拍子に間違ってページを非公開にしている、あるいはまだ公開していないページにリンクを設定していることが考えられます。

リンク切れをなくす方法を詳しく知りたい方はこちら>>>

内部リンク設置のポイント

リンク切れが起きているとクローラビリティの妨げとなってしまいますが、適切な内部リンクはクローラーの巡回を後押しし、クローラビリティによい影響を与えます。

以下のポイントを意識して、内部リンクを設置してみてください。

【内部リンク設置のポイント】

  • 関連性の高いページにリンクを貼る
  • 重要ページには、より多くのリンクを貼る
  • ナビゲーションやフッターなど、目立つ場所にリンクを貼る
  • 〈a〉タグのリンクを設置する

関連するコンテンツをリンクで結べば、クローラビリティだけではなくサイトの網羅性も向上します。
内部リンクの最適化を図り、クローラビリティを改善しましょう。

内部リンクの設置ポイントを詳しく知りたい方はこちら>>>

④XMLサイトマップを作成する

「XMLサイトマップ」とよばれる、サイト内のすべてのページを検索エンジンに伝えるためのファイルの作成も忘れてはなりません。
検索エンジンは、XMLサイトマップの情報をもとにクローリングします。

なお、このXMLサイトマップは、自動作成ツールや、WordPressのプラグインを活用すれば簡単に作成できます。

XMLサイトマップを作成したら、Googleサーチコンソールに登録しましょう。
具体的な手順は以下をご覧ください。

【クローリングをリクエストする手順】

  1. Googleサーチコンソールにログインし、メニューの「URL検査」をクリックする
  2. リクエストしたいURLを上部の検索窓に入力する
  3. 「インデックス登録をリクエスト」をクリックする

手順①Googleサーチコンソールにログインし、メニューの「サイトマップ」をクリックする

サイトマップの追加や、既に登録したサイトマップの確認が行える画面に遷移します。

手順②XMLサイトマップのURLを入力し、「送信」をクリックする

登録後、Googleサーチコンソールの「サイトマップ」メニューの「送信されたサイトマップ」を確認してみてください。
ステータスに「成功しました」と表示されていれば、XMLサイトマップが無事に登録されていることになります。
もしエラーが表示されている場合は、XMLサイトマップのURLは間違っていないか確認したうえで、再登録を試みましょう。

XMLサイトマップを作成方法を詳しく知りたい方はこちら>>>

⑤HTMLサイトマップを用意する

XMLサイトマップだけでなく、HTMLサイトマップも用意したいところです。

HTMLサイトマップとは、サイト内のページを階層ごとに分けて、見やすく一覧化している専用ページのことです。
多くのサイトで、そのまま「サイトマップ」というページ名で公開されています。

XMLサイトマップは検索エンジンに向けているものであるのに対し、HTMLサイトマップは主にユーザーに向けられたものです。

  XMLサイトマップ HTMLサイトマップ
目的 検索エンジンにサイトの内容を伝える ユーザーにサイトのページ一覧を案内する
サイト内リンク 設置しない 設置する
形式 XMLファイル HTMLページ


上記の表をみても、HTMLサイトマップの主な対象はユーザーであることがお分かりいただけるはずです。
しかし、各ページの関係性や階層をわかりやすく一覧化することで、ユーザーのみならず検索エンジンのクローリングの助けにもなります。

HTMLサイトマップについて詳しく知りたい方はこちら>>>

⑥パンくずリストを設置する

パンくずリストとは、Webサイトのページ階層を示すナビゲーションのことです。

コラム記事などを閲覧している際、画面の上部に「TOP>お役立ち情報>○○について」といった小さなリンク群を見たことはありませんか?

これをパンくずリストといい、童話『ヘンゼルとグレーテル』で主人公たちが迷子にならないよう、自分たちが来た道にパンくずを落として道しるべにしたことに由来します。

Webサイトにおけるパンくずリストは、ユーザーがページの立ち位置を把握できるだけでなく、クローラーがサイトの構造を理解し、効率的にクロールするのにも役立ちます。

もしご自身のサイトにパンくずリストがない場合は、以下の点を押さえたうえで作成してみてください。

【パンくずリストを作成するポイント】

  • ページのタイトルと同じか、関連性の高いタイトルにする
  • ページのヘッダーやフッターに配置する
  • すべてのページに設置する

パンくずリストは、クローラビリティとユーザビリティいずれの向上にもつながるため、ぜひ設置しましょう。

パンくずリスト作成ポイントについてはこちら>>>

⑦ページスピードの改善をはかる

ページの表示スピードを速くする、言い換えるとページのファイルサイズを減らして「軽くする」こともクローラビリティ改善において重要です。

ファイルサイズが大きく、表示スピードの遅いページは、それだけクローラーの巡回にも負荷をかけます。
そうなると、クローラーの巡回効率に影響を及ぼし、いちどに巡回できるページ数が少なくなってしまうのです。

画像やCSS、JavaScriptをはじめとするファイルを見直して、不要なファイルやソースコードの削除や画像の圧縮を実施し、“データの断捨離”を行いましょう。
ファイルサイズが減り、ページスピードが改善すれば、クローラビリティによい影響を与えるだけでなく、ユーザーの利便性も上がって一石二鳥です。

ページスピードの改善方法はこちら>>>

⑧重複コンテンツを一本化する

サイト内にほとんど同じような内容のページが複数ある場合は、ページを一本化する必要があります。

たとえば、「クローラーとは」「クローラビリティとは」という2つのコラム記事は、同じ内容である可能性が非常に高いですよね。
また、「https://●●●.jp」「https://www.●●●.jp」と、ほとんど同じURLを複数取得しており、両者に似たようなページがある場合も重複コンテンツとみなされます。

なぜ重複コンテンツを一本化したほうがよいのかというと、クローラーが巡回する効率に影響するためです。
クローラーが1日に巡回できるページ数は決まっているので、重複コンテンツがあると本来ならば一度で済む内容を二度巡回することとなります。
結果、ほかのページへの巡回が滞ってしまうというわけです。

Googleの公式YouTubeチャンネルでも、重複コンテンツのデメリットと、その対策を解説する動画が公開されています。

クローラーの無駄な巡回をなくし、効率的にクローリングしてもらうためにも、重複コンテンツは見つけ次第対策してくださいね。

重複コンテンツについて詳しく知りたい方はこちら>>>

noindexをつけてクローラーを避けるメリット

ここまでで、クローラーの重要性や、自サイトをできるだけクローラーに巡回してもらうためのコツを紹介してきました。
しかし、なかにはむしろクローラーが巡回しないほうがよいページもあることをご存じでしょうか?
Web上のページは、必ずしも検索エンジンからの流入がメリットになり得るとは限らないためです。

たとえば、以下のようなページが該当します。

【クローラーの巡回を拒否したほうがよいページ】

  • 重複コンテンツ
  • エラーページ
  • HTMLサイトマップのページ
  • ログインページ
  • テストページ

エラーページやHTMLサイトマップのように、サイトに訪れたユーザーに見せる前提のページは検索結果に表示させる必要性がありません。

また、作成途中のテストページは、ユーザーには見せたくないですよね。

このように検索結果に表示させたくないページには、noindexとよばれるタグを設定すればクローラーの巡回を拒否できます。
なお、作成途中のページにnoindexをつけた場合は、完成後にきちんとクローリングしてもらえるよう、最後にnoindexを外すのを忘れないでくださいね。

noindexについてもっと知りたい方はこちら>>>

クローラーの巡回を確認する方法

サイト全体、あるいは個別のページへのクローラーの巡回状況を確認するには、Googleサーチコンソールを用います。
ここからは、ケース別に具体的な方法を解説します。

サイト全体の巡回状況を確認したい場合

「クロールの統計情報」の画面では、クロールされたページ数やクローラーが巡回にあたりダウンロードしたデータ量、またダウンロード時間を日付別に把握できます。

以下の手順で確認しましょう。

【サイト全体のクローラー巡回状況を確認する手順】

  1. Googleサーチコンソールにログインし、メニューの「設定」をクリックする
  2. 「レポートを開く」をクリックする

手順①Googleサーチコンソールにログインし、メニューの「設定」をクリックする

このメニューから、Googleサーチコンソールの設定を行えるだけでなく、クロールの統計情報を確認することもできます。

手順②「レポートを開く」をクリックする

「1日あたりのクロールされたページ数」では、日付別にクロールされたページ数が折れ線グラフで表示されます。
このページ数が多いほど、クローラビリティの高いサイトであるということです。
サイトのコンテンツ数の増加と比例して、このグラフの数値も増えていくのが理想ですね。

「1日にダウンロードされるキロバイト(KB)数」は、クローラーが1日の巡回にあたりダウンロードしたデータ量です。
クロールの頻度が増えると、自ずとダウンロードするデータ量も増えるため、「1日あたりのクロールされたページ数」と比例しています。

「ページのダウンロード時間(ミリ秒)」は、クローラーがページをダウンロードするにあたってどの程度の時間がかかったのかを示しています。
ダウンロード時間は、ページのデータ量だけでなく、アクセス集中をはじめとするサーバーへの負荷によっても左右されるので、しっかりとモニタリングしておきたいところです。

ダウンロードに時間がかかりすぎるページでは、クローラーが離脱してしまう可能性もあるので、不要なデータの削除やサーバーの増設などの対応を適宜とる必要があります。

各ページの最終巡回日を確認したい場合

一定の期間、公開しているページなら、更新したタイミングでクローラーに巡回してもらって、最新の情報をインデックスさせたいですよね。
そんなときに気になるのが、対象のページをクローラーが最後に巡回した日付です。

下記の手順でGoogleサーチコンソールを操作していけば、クローラーの最終巡回日を確認できます。

【特定のページへの最終巡回日を確認する手順】

  1. Googleサーチコンソールにログインし、メニューの「URL検査」をクリックする
  2. 対象のページのURLを上部の検索窓に入力する
  3. 画面が切り替わったら、「カバレッジ」の詳細情報を表示する
  4. 「前回のクロール日」に記載されている日付を確認する

手順①Googleサーチコンソールにログインし、メニューの「URL検査」をクリックする

手順②対象のページのURLを上部の検索窓に入力する

ここまでは、クローリングをリクエストする際と同じ手順です。
「Googleインデックスからデータを取得しています」とメッセージが表示されたら、画面が切り替わるのを待ちます。

手順③画面が切り替わったら、「ページのインデックス登録」の詳細情報を表示する

「ページのインデックス登録」の右側にある▼をクリックすると、詳細情報を表示できます。

手順④「前回のクロール日」に記載されている日付を確認する

「前回のクロール日」が、最終巡回日です。

もし「URLがGoogleに登録されていません」と表示される場合は、本記事で紹介した「Googleサーチコンソールでクロールをリクエストする」の手順に沿ってURLを登録してください。

クローラー巡回の確認方法について知りたい方はこちら>>>

【思わぬ罠!】訪問者が実はユーザーではなくクローラーだった!?

一部のアクセス解析ツールでは、ユーザーの訪問もクローラーの巡回も、同じく「1PV」としてカウントされます。

そのため、「最近、サイトのPV数が増えた!」と喜んでいたら、実はそのうち数割がクローラーだった……なんてことも。
日頃のPV計測では、一桁単位まで細かく見るのではなく、大まかな傾向で観察していくのをおすすめします。
ただし、月ごとの分析のレポートなど、正確な数値が求められる場面では、きちんと記録していきましょうね。

なお、GA4ことGoogleアナリティクス 4プロパティでは、クローラーをはじめとするボットのPVは、はじめから除外されるよう設計されています。

クローラーの種類

アクセス解析ツールによっては、訪問者のブラウザを一覧できる機能があり、そのなかにクローラーの名前が一緒に表示される場合もあります。

比較的よく巡回しているクローラーの名前をまとめましたので、クローラーとユーザーの訪問頻度の確認などにお役立てください。

【代表的なクローラーと元となる検索エンジンの一覧】

  • Googlebot:Google
  • Googlebot-Image:Google
  • Googlebot-Mobile:Google
  • BingBot:Bing(Microsoft)
  • Yahoo Slurp:日本以外のYahoo!
  • Baiduspider:百度
  • Yetibot:Naver
  • ManifoldCF:Apache
  • AppleBot:Apple

このほかにも、アクセス解析ツールや各種アプリケーション、Webサービスなどのクローラーも多数存在します。
また、なかには特定のスパムサイトへのアクセスへの誘導を目的としている、悪質な“リファラースパム”とよばれるクローラーもあるので、注意しなければなりません。

アクセス履歴に見慣れない名前があった際は、まずその名前で検索してみて、「怪しい」と感じた場合や情報が見つからない場合は、アクセスをブロックするのが得策です。

【事例紹介】SEOサービス『ランクエスト』のクローラビリティ向上施策

SEOサービス『ランクエスト』では、すべてのお客様に対し、クローラビリティ向上施策は大前提として実施しております。
どれだけ高品質なコンテンツを作成して上位化を狙っても、クローラビリティに問題があれば、検索順位はなかなか伸びないためです。

今回は、『ランクエスト』担当コンサルタントがクローラビリティの重要性を改めて実感した事例をご紹介いたします。

とあるお客様から、「これまで他社でSEOをやっていたけど、順位が全然伸びなくて……」とご相談をいただきました。
理由を探るためにお客様のサイトを確認していくと、内部リンクが適切に設定されていなかったり、表示スピードが遅かったり……と、クローラビリティの面でいくつもの課題があったことが判明!

どんな新しい施策を試すよりも、まずはここを改善しなければならないことは一目瞭然です。
そこで、『ランクエスト』で普段実施しているクローラビリティ向上施策をすべて実施しました。
すると、伸び悩んでいた順位が少しずつ動きだしていき、その後実施していったコンテンツの新規追加・リライト施策も効果を見せはじめました。

やはり、クローラビリティの向上はSEOの大前提ともいえる大切な施策です。
だからこそ最初にやっておく必要があるんだな、と、その重要性に気づかされた一件として、お客様へのご提案の際にもお話しすることがあります。

クローラーの仕組みを理解してSEOに活かそう

Googleの検索エンジンは、クローラーとよばれるプログラムがWebサイトのURLを辿り、情報収集しています。

コンテンツの検索順位を上げるためには、サイト内のクローラビリティを向上させ、適切にクローリングされるように環境を整えることが必須です。
しかし、クローラビリティの向上には、専門知識やスキルが必要な場合もあります。

自社サイトのクローラビリティにお悩みの方は、ぜひランクエストまでご相談ください。
15年間で蓄積されたデータと、最新のトレンドを熟知した専門のコンサルタントが、徹底的にサポートいたします。

ご相談は完全無料ですので、ぜひお気軽にお問い合わせくださいませ。
SEO無料相談フォーム | 徹底的にSEOするランクエストSEO対策とは

関連したコンテンツ
最新のコンテンツ
TOP

SEO無料相談

受付時間 平日9:00~18:30

0120-790-671