robots.txt でクローラーの動きをコントロールする

robots.txt を置くことで検索エンジンのインデックスに特定のページを登録されないようにしたり、サイトマップファイルをクローラーに教えてあげることが出来ます。
robots.txt 自体は拡張子から分かるとおり単なるテキストファイルなので、誰でも見ることが出来ますので、隠しページなどに使うと却ってみんなにばれてしまいます。
あくまでも検索エンジンのクローラーをコントロールするためだけに使用します。但し、必ず robots.txt に従うとは限りませんので、その点はご承知おき下さい。

詳しくは Search Console ヘルプの robots.txtの概要をご参照下さい。

obots.txt の記述方法

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Group 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

全体説明

「Googlebot」クローラという名前のユーザーエージェントは、フォルダ「http://example.com/nogooglebot/」やそのサブディレクトリをクロールできません。
他のユーザーエージェントは、すべてサイト全体にアクセスできます（デフォルトでフルアクセス権限が付与されるため、このルールを省略しても結果は同じになります）。
サイトのサイトマップファイルが http://www.example.com/sitemap.xml にあります。

詳しくは Search Console ヘルプの robots.txt ファイルを作成するをご参照下さい。

#: 先頭に「#」の付いた行はコメントの意味で無視されます。
覚書等説明を書いておきたい時に利用して下さい。
User-agent: 対象の検索ロボットを指定します。
全てのロボットを対象にする場合は * （アスタリスク）にします。
特定のロボットだけを対象にする場合はロボット名を記述します。
例）User-agent: Googlebot
ロボット名はRobots Databaseを参照して下さい。
Disallow: 対象ウェブサイト内の特定のファイルパスへのアクセスをブロックします。
インデックスしてほしくないページを指定します。
上記例の「Disallow: /nogooglebot/」は「nogooglebot」フォルダ以下全てを禁止する指定になります。
「Disallow: /nogooglebot/abc.html」とすると、そのページのみブロックする指定になります。
改行で複数指定することが出来ます。
Allow: 対象ウェブサイト内の特定のファイルパスへのアクセスを許可します。
基本的には記載不要ですが、上記の例のようにロボットによってブロックと許可を使い分ける時に使用します。
Sitemap: サイトマップファイルがある場合はフルパスで指定します。
※ サイトマップページではなく、検索エンジン用の XML ファイルです。
　　「サイトマップメーカー Pro」で作成することが出来ます。

obots.txt の置き場所

必ずルートディレクトリに置きます。
ルートディレクトリというのはトップページと同じ場所になります。
このサイトで言うと「https://www.kanaya440.com/robots.txt」になります。

obots.txt の確認方法

Search Console の robots.txt テスターで確認出来ます。
※ Search Console にサイトを登録する必要があります。

１．「プロパティを選択して下さい」をクリックする
テスターページ

２．調べるサイトを選択する
プロパティを選択

３．エラー数と警告数、及び詳細が確認出来ます。

４．URLを入力して「テスト」ボタンをクリックするときちんとブロックされているか確認出来ます。
ブロック済み
許可済み