GoogleクローラーがWebサイトの情報を収集する仕組み

どうもブルームプロモーションの高橋です。

昨年9月の時点で、世界のウェブサイト数が10億件を突破したそうです。ものすごい数ですが、Googleはその全てを調べ整頓し続けています。

10億を超えるWEBサイトを網羅するGoogleは、一体どうやってこの膨大なWebサイトに対応しているのでしょうか？

今回はGoogle検索エンジンの仕組みを知るための第一歩、Webサイトの情報を収集する「クローラー」についてお伝えします。

クロールするからクローラー

Web上の情報を収集することを「クロール」といいます。Webという海を泳いでいる感じからなんでしょうか？

クロールしているのは、Googleが開発した自動巡回プログラム「Googlebot（グーグルボット）」です。WEB上をクロールするロボットのことを総称で「クローラー」と呼びます。

クローラーは私たちユーザーと同じように、WEBページのリンクをたどって移動します。Webの世界に無数に張り巡らされたリンクからリンクをハイスピードでクモのように這い回るので、スパイダーとも呼ばれています。

「リンクが切れているページがあるサイトは良くない」と言われるのは、ユーザビリティ（ユーザーの使いやすさ）の問題だけでなく、クローラーがリンクをたどれなくなり、サイトのなかの情報を把握しきれなくなるからです。

ちなみに、ユーザビリティと似た言葉でクローラビリティ（クローラーの使いやすさ）という言葉もあります。カッコつけたい時に使ってみてもいいかも知れません。

クローラーは世界中の公開されているウェブページをクロール（情報を取得）し、そのページの情報をGoogleのサーバーへ持ち帰って蓄積します。
誰かが何かを知るために検索をすると、そのキーワードとマッチする結果に選ばれたページが表示されます。

一番有名なクローラーはGooglebotですが、ほかにもロボットの種類はたくさんあります。

画像専門のクローラーや広告専門のクローラー、Google以外の検索エンジン専門のクローラーなど、Googleは複数のマシンを開発しています。

情報集めの仕事を分業することで、10億にも及ぶ増大するWebの世界に対応しているわけです。

クローラーのことで、一つ覚えておきたいことがあります。

それは「画像の中にある文字は理解できない。」ということ。

テキストは文字コードでできているので、プログラムであるクローラーも理解できますが、所詮ロボットなので今のところ、デザインや画像の美しさ、動画の楽しさも理解できません。

「Googleはテキストが好き」と言われますが、逆に言えば、Googlebotは「テキストしか理解できない」ということです。

もし、あなたがサイトやブログで、伝えたい情報があるとしたら、それをしっかりとテキストで表現することが大事です。

そして同時にクローラーが、サイト内の情報を集めやすくしてあげるように、内部リンクを適切に渡らせるなど、サイトの構造を設計し施策をすることが必要です。

それは、ユーザーにとっても有益なサイトになる施策と通じる点が非常に多いのです。

・クロールとはGoogle検索の仕組みのプロセス
・クロールするロボットはクローラーと呼ばれる
・Web全体の利便性のためクローラーにはたくさん種類がある

2015/12/03 ちょっと追記しました。

この記事を書いた人

SEOコンサルタント高橋正樹

飲食・ブライダルなどサービス業を経て、2017年ブルームプロモーションの役員に就任。SEOを軸としたコンテンツの企画からWEBサイトの設計まで幅広く行う。