クローラー

クローラーとは、ロボット型検索エンジンがインターネット上のサイトを定期的に巡回するプログラムです。クローラーはインターネット上のウェブページを定 期的に巡回し、HTML内をデータ収集します。そのHTML内のリンクをさらに辿り、次のウェブサイトへと進んでいきます。 インデクサとは 、クローラーがHTMLを巡回し、収集したHTML内のデータを扱いやすい検索用語としてデータ変換し、データベースに格納していくのが役割です。

クローラーとHTMLリンク

クローラーは、HTMLドキュメント中の<A>タグ(リンク)を頼りに、次々とWWWを巡回していきます。
この動作を「クロール」と言いますが、このようにクローラーをクロールさせることが、ロボット型検索エンジンのデータベースにページ、またはサイトを登録する第一歩になります。
クローラーがクロールしない限り検索エンジンには登録されず、従って検索結果にもあらわれないのです。まずはクローラーを巡回させなくてはなりません。

クローラーロボットの巡回のために、リンクは必ず<A>タグで
クローラーが<A>タグ(リンク)を辿る、ということは先に述べました。これは非常に重要で、SEO,検索エンジン最適化やウェブポジショニングの基礎になります。

私 たちが目にするサイトの中には、<A>タグ以外の方法でリンクを設定しているサイトも数多く存在します。例えばJavaScriptを使用し たプルダウンメニューやクリッカブルマップ、Macromedia FLASHを使用したリンクなどです。多くの場合、クローラーはこれらのリンク方法を理解しません。
SEO、検索エンジン最適化を考えるとき、JavaScriptを使用したプルダウンメニューやクリッカブルマップ、Macromedia FLASHなどの<A>タグ以外のリンク方法はとるべきではなく、必ず<A>タグによって文書同士をリンクさせるべきなのです。

シンプルなページ作りとサイトマップの利用で確実に

Googleのロボットなどは非常に優秀で、ファイルサイズの大きな文書や複雑な文書であっても、ほぼ完全に<A>タグによるリンクを辿ります。
ですがすべてのクローラーがGoogleのように優秀なわけではありません。多くの場合、文書の始めのほうに出てくるリンクしか辿らなかったり、複雑に入れ子になったテーブルの中のリンクを辿らなかったりと、完全なものではないのです。

ですから、私たちがページを作る際には、できる限りクローラーが巡回しやすいように、シンプルなページ作りを心がけるべきなのです。
ここで言う「シンプルなページ作り」とは、余計なタグによるマークアップや、複雑なレイアウトを避け、クローラーに優しいページ作りを行う、という意味で す。シンプルなページ作り、というのはSEO,検索エンジン最適化の見地からは非常に重要なことです。KISSメソッドの項でも触れいてますので参照して ください。

また、すべてのリンクを集めたシンプルな「サイトマップ」を作成し、クローラーを巡回しやすくする、というのも一つの方法です。これについては、単にクローラーの巡回を助ける以上の効果を見込めますので、リンク構造の項でも説明します。

コメントを残す