robots.txt

SEO対策情報

2007/04/15

robots.txtとは、
ロボット型検索エンジンに対してクロールに関する制御を伝える
ためのファイルです。

通常のテキストファイル形式で下記のようなルールを記述し、
ルートディレクトリにアップロードします。

User-Agent:	ルールの対象となるロボット
Disallow:	ブロックするページまたはディレクトリ

すべてのディレクトリに対し、すべてのロボットにクロールおよび
インデックスを許可する。

User-agent: *
Disallow:

また、Googleに関しては、「Allow」拡張が使用できます。
この拡張機能が、YST(Yahoo)やLiveSerch(MSN)が正しく認識されるかは不明ですが、
パターン一致も使えますので、うまく活用していきましょう。

ショッピングサイトなどを運営している場合、
ユーザーに対して様々な角度から商品を見つけやすい設計を心がけますが、
クローラーの視点から見ると残念ながら類似ページや同一ページのように
見えてしまうことがあります。

近年の検索エンジンは、類似ページや同一ページが多いサイトの
インデックス数は減りがちです。
これは膨大な情報を適切に分類するために必要なことではありますが、
必要なページがインデックスから削除されると大きな打撃につながります。

そこで、あらかじめrobots.txtにクロールしてほしいページを明記し、
類似するページや同一のページをクロールしない表記をしておくことは
大切なリスク回避とも言えます。

ユーザーに対しても、クローラーに対しても親切な設計をするために
robots.txtは有効な手段です。

【注意】
自サイトのトップページがこのようになっている場合、
http://www.aaa.com/~bbb/
http://www.aaa.com/ccc/
ルートディレクトリにファイルをアップロードする権限を
持っていない可能性があります。

また、無料ブログサービスなどを使用していている場合にも、
ファイルをアップロードできないケースがあります。

下記のような階層にファイルが設置できるかをご確認ください。
http://www.aaa.com/robots.txt

【参考情報】