webサイトを作成したりwordpressなどを触ったりする際によくrobots.txtについて紹介します。
目次
クローラー・クローリング
WEB上のファイル、画像等を収集するためのプログラム(ロボットとも呼びます)のことをクローラーといいます。有名なものとしては、Googleなどのロボット型検索エンジンが利用しています。クローラーを利用してWeb上のファイル・情報を集めることを「クローリング」といいます。Google等の検索エンジンは、集めた情報を元に検索データベース(DB)を作成します。このDB の情報を使って、検索結果の表示順序が決められます。
ちなみに、上記のDBに登録することを「インデックス化」、DBに登録されたデータを「インデックス」といいます。
クローラーは、ページのリンクをたどって巡回します。
robots.txtについて
クローラーは、リンクをたどって処理されるので、本来検索結果としては表示されてほしくないものも登録されてしまう恐れがあります。そこで、インデックス化対象を定義して上げる必要があります。
- Web上のファイルアクセス制御をするためのテキストファイルである。
- 特定のフォルダ配下・ファイルごとにアクセスNG、アクセスOKを定義することがてきる。
- ファイル名は、robots.txt。sが入るので注意
- 保存先は、ドキュメントルートに保存する。
サンプル
簡単な例です。
下記のようにUser-Agentごとにアクセス制御をしていきます。
User-Agent: * 「*」ですべてのクローラを制限する
Disallow: /hogehoge/ ディレクトリが除外される
Allow: /fugafuga/ ディレクトリが対象になる
上記例では、全てのクローラーを対象としていますが、クローラーごとに定義することも可能です。
補足
記載ルールには、ABNFを利用しています。ABNFと呼ばれるIETF(インターネット技術の標準化を推進する任意団体)が通信プロトコルを定義する際によく利用される構文規則があります。
詳細は、https://developers.google.com/search/docs/advanced/robots/intro?hl=jaを参考にしてください。