robots.txt ファイルを作成する方法 (および作成が必要な理由)

By: tacos14

SEO 監査の実施方法に関する初心者向けガイド

robots.txt ファイルを使用して、Web サイトでインデックスを作成するものと作成しないものを制御します。robots.txt が SEO にとって重要である理由と、検索エンジンが特定のディレクトリをクロールしないようにブロックする方法を学びます。

SEO を人々に説明するのは難しい場合があります。最初はそれほど重要ではないと思われる小さな手順がたくさんあるためです。ただし、正しく実行すると、検索ランキングが大幅に向上します。

見落としがちな重要な手順の 1 つは、検索エンジンのクローラーにインデックスを作成するページと、インデックスしないページを知らせることです。robots.txt ファイルを使用してこれを行うことができます。

今日の投稿では、robots.txt ファイルを作成する方法を正確に説明します。これにより、サイトのこの基礎部分を整え、クローラーが希望どおりにサイトとやり取りできるようになります。

robots.txt ファイルとは何ですか?

robots.txt ファイルは、検索エンジンのクローラーにサイトのどのページをクロールしてインデックスを作成するかを指示する簡単な指示です。

これはロボット排除プロトコル (REP) の一部です。ロボット排除プロトコルは、検索エンジン ロボットが Web をクロールし、サイト コンテンツを評価してインデックスを作成し、そのコンテンツをユーザーに提供する方法を規定する一連の標準手順です。このファイルは、クローラーがクロールできる場所とできない場所を指定します。また、クローラーが Web サイトをより効率的にクロールするのに役立つ情報も含めることができます。

REP には「メタ ロボット タグ」も含まれます。これはページの HTML に含まれる指示で、Web クローラーが特定の Web ページやそこに含まれる画像やファイルをクロールしてインデックスを作成する方法に関する具体的な指示が含まれています。

robots.txt とメタ ロボット タグの違いは何ですか?

前述したように、ロボット排除プロトコルには「メタ ロボット タグ」も含まれます。これはページの HTML に含まれるコードです。これらは robots.txt ファイルとは異なり、特定の Web ページで Web クローラーに指示を与え、ページ全体またはページに含まれる写真や動画などの特定のファイルへのアクセスを禁止します。

一方、robots.txt ファイルは、内部使用のみを目的としたサブディレクトリなど、Web サイトのセグメント全体がインデックスに登録されないようにすることを目的としています。robots.txt ファイルは、特定のページではなくサイトのルート ドメイン上に存在し、ディレクティブは、参照先のディレクトリまたはサブディレクトリに含まれるすべてのページに影響を与えるように構成されています。

robots.txt ファイルが必要な理由

robots.txt ファイルは、一見すると単純なテキスト ファイルですが、非常に重要です。このファイルがないと、Web クローラーは、見つかったすべてのページをインデックスに登録します。

なぜこれが重要なのでしょうか?

まず、サイト全体をクロールするには時間とリソースがかかります。これには費用がかかるため、Google は、特にサイトが非常に大きい場合は、サイトをクロールする量を制限しています。これは「クロール バジェット」と呼ばれます。クロール バジェットは、応答時間、価値の低い URL、発生したエラーの数など、いくつかの技術的な要因によって制限されます。

さらに、検索エンジンにすべてのページへの自由なアクセスを許可し、クローラーにインデックスを登録させると、インデックスが肥大化する可能性があります。つまり、Google は、検索結果に表示したくない重要でないページをランク付けする可能性があります。これらの結果は訪問者のエクスペリエンスを低下させる可能性があり、ランク付けしたいページと競合する可能性もあります。

サイトに robots.txt ファイルを追加するか、既存のファイルを更新することで、クロール バジェットの無駄を減らし、インデックスの肥大化を抑えることができます。

robots.txt ファイルはどこにありますか?

サイトに robots.txt ファイルがあるかどうかを確認する簡単な方法があります。インターネットで検索してください。

任意のサイトの URL を入力し、末尾に「/robots.txt」を追加するだけです。たとえば、searchenginebridge.com/robots.txt で当サイトのものが表示されます。

サイトの URL を入力し、最後に「/robots.txt」を追加して、自分で試してみてください。次の 3 つのいずれかが表示されます。

  • 有効な robots.txt ファイルであることを示す数行のテキスト
  • 実際の robots.txt ファイルがないことを示す完全に空白のページ
  • 404 エラー

サイトをチェックして、2 番目と 3 番目の結果のいずれかが表示された場合は、検索エンジンがどこに重点を置くべきかをよりよく理解できるように robots.txt ファイルを作成する必要があります。

robots.txt ファイルの作成方法

robots.txt ファイルには、検索エンジン ロボットが読み取り、従うことができる特定のコマンドが含まれています。robots.txt ファイルを作成するときに使用する用語をいくつか示します。

知っておくべき一般的な robots.txt 用語

  • User-Agent: ユーザー エージェントは、エンド ユーザー向けに Web コンテンツを取得して表示するソフトウェアです。ウェブブラウザ、メディアプレーヤー、プラグインはすべてユーザーエージェントの例と見なすことができますが、robot.txt ファイルのコンテキストでは、ユーザーエージェントはウェブサイトをクロールしてインデックスを作成する検索エンジンのクローラーまたはスパイダー (Googlebot など) です
  • Allow: robots.txt ファイルに含まれている場合、このコマンドはユーザーエージェントがそれに続くすべてのページをクロールすることを許可します。たとえば、コマンドが「Allow: /」と表示されている場合、これはすべての Web クローラーが「https://www.example.com/」のスラッシュに続くすべてのページにアクセスできることを意味します。クロールしたいすべてのものにこれを追加する必要はありません。robots.txt で禁止されていないものはすべて暗黙的に許可されるためです。代わりに、これを使用して、禁止されたパスにあるサブディレクトリへのアクセスを許可します。たとえば、WordPress サイトには /wp-admin/ フォルダーの disallow ディレクティブがあることが多く、これにより、クローラーがメイン フォルダー内の他のものにアクセスせずに /wp-admin/admin-ajax.php にアクセスできるように allow ディレクティブを追加する必要があります。
  • Disallow: このコマンドは、特定のユーザー エージェントが指定されたフォルダーに続くページをクロールすることを禁止します。たとえば、コマンドが「Disallow: /blog/」と表示されている場合、これはユーザー エージェントが /blog/ サブディレクトリを含む URL をクロールできないことを意味し、ブログ全体が検索から除外されます。おそらくそんなことはしたくないでしょうが、実行できます。そのため、robots.txt ファイルに変更を加えることを考える場合は、disallow ディレクティブを使用することの影響を考慮することが非常に重要です。
  • Crawl-delay: このコマンドは非公式とみなされていますが、Web クローラーがリクエストでサーバーを圧倒するのを防ぐために設計されています。通常、リクエストが多すぎるとサーバーの問題が発生する可能性がある Web サイトに実装されます。一部の検索エンジンはこれをサポートしていますが、Google はサポートしていません。Google のクロール レートを調整するには、Google Search Console を開き、プロパティのクロール レート設定ページに移動して、そこでスライダーを調整します。これは、Google が最適ではないと判断した場合にのみ機能します。最適ではないと判断し、Google が同意しない場合は、特別なリクエストを送信して調整してもらう必要がある場合があります。これは、Google が Web サイトのクロール レートを最適化できるようにすることを望んでいるためです。
  • XML サイトマップ: このディレクティブは、その名のとおり、Web クローラーに XML サイトマップの場所を伝えます。次のようになります: 「サイトマップ: https://www.example.com/sitemap.xml」。サイトマップのベスト プラクティスの詳細については、こちらをご覧ください。

robots.txt を作成するための手順

独自の robots.txt ファイルを作成するには、メモ帳や TextEdit などのシンプルなテキスト エディターが必要です。ワード プロセッサは使用しないことが重要です。これらのエディタは通常、ファイルを独自の形式で保存し、ファイルに特殊文字を追加する可能性があります。

簡単にするために、「www.example.com」を使用します。

まず、ユーザー エージェント パラメータを設定します。最初の行に次のように入力します。

User-agent: *

アスタリスクは、すべての Web クローラーが Web サイトにアクセスできることを表します。

一部の Web サイトでは、ボットがクロールできることを示す allow ディレクティブを使用しますが、これは不要です。サイトの、許可していない部分はすべて暗黙的に許可されます。

次に、必要に応じて disallow パラメータを入力します。ユーザー エージェント行の後に改行を挿入するために「return」を 2 回押し、disallow パラメータに続いてクロールしないディレクトリを入力します。私たちの場合は次のようになります:

Disallow: /wp/wp-admin/

Disallow: /?

最初のコマンドは、WordPress 管理ページ (この記事のような内容を編集するページ) がクロールされないようにします。これらは検索でランク付けされたくないページであり、パスワードで保護されているため、Google がクロールするのは時間の無駄です。2 番目のコマンドは、内部ブログ検索結果ページなど、疑問符を含む URL を検索ボットがクロールしないようにします。

コマンドを完了したら、サイトマップにリンクします。この手順は技術的には必須ではありませんが、Web スパイダーにサイトの最も重要なページを示し、サイトのアーキテクチャを明確にするため、推奨されるベスト プラクティスです。別の改行を挿入した後、次のように入力します:

Sitemap: https://www.example.com/sitemap.xml

これで、Web 開発者がファイルを Web サイトにアップロードできます。

WordPress で robots.txt ファイルを作成する

WordPress の管理者権限がある場合は、Yoast SEO プラグインまたは AIOSEO を使用して robots.txt ファイルを変更できます。または、Web 開発者が FTP または SFTP クライアントを使用して WordPress サイトに接続し、ルート ディレクトリにアクセスすることもできます。

robots.txt ファイルをルート ディレクトリ以外の場所に移動しないでください。一部の情報源ではサブディレクトリまたはサブドメインに配置することを推奨していますが、理想的にはルート ドメイン (www.example.com/robots.txt) に配置する必要があります。

robots.txt ファイルのテスト方法

robots.txt ファイルを作成したら、テストしてみましょう。幸い、Google は Google Search Console の一部として robots.txt テスターを提供しているため、テストは簡単です。

サイトのテスターを開くと、構文の警告やロジック エラーが強調表示されます。

robots txt テスター

Robots.txt の欠点

robots.txt ファイルは非常に便利ですが、制限もあります。

robots.txt ファイルは、Web サイトの一部を保護したり隠したりするために使用しないでください (これを行うと、データ保護法に違反する可能性があります)。独自の robots.txt ファイルを検索するよう提案したことを覚えていますか? つまり、あなただけでなく、誰でもアクセスできます。保護する必要がある情報がある場合は、特定のページまたはドキュメントをパスワードで保護するのが最善の方法です。

さらに、robots.txt ファイルのディレクティブは単なるリクエストです。Googlebot やその他の正当なクローラーはディレクティブに従うと予想できますが、他のボットは単に無視する可能性があります。

最後に、クローラーに特定の URL をインデックスしないように要求したとしても、それらは見えなくなるわけではありません。他の Web サイトがそれらの URL にリンクしている可能性があります。Web サイトの特定の情報を一般公開したくない場合は、パスワードで保護する必要があります。インデックスされないようにしたい場合は、ページに noindex タグを含めることを検討してください。

テクニカル SEO についてさらに詳しく

SEO についてさらに詳しく知りたいですか? ウェブサイトの SEO を自分で管理する方法についてのステップバイステップの説明も含まれています。SEO チェックリストを確認して、検索ランキングの向上やウェブサイトへのオーガニック トラフィックの増加に役立つ貴重なリソースを含む包括的な ToDo リストを入手してください。

「robots.txt ファイルを作成する方法 (および作成が必要な理由)」への2件のフィードバック

コメントする

サーチエンジンブリッジ・ブリッジロゴ
SEOの架け橋サーチエンジンブリッジ