重複コンテンツ SEO: 重複コンテンツの確認方法

By: tacos14

重複コンテンツ SEO: 重複コンテンツの確認方法

Table of Contents

重複コンテンツ SEO: 重複コンテンツの確認方法

重複コンテンツが検索ランキングに影響しないようにしましょう。重複コンテンツの URL を特定して管理するには、当サイトのヒントをご利用ください。

重複コンテンツは、検索結果に表示されるページに影響を与え、クロール バジェットを無駄にする可能性があります。幸いなことに、重複コンテンツを特定し、ウェブサイトまたは Google のインデックスから削除して、ランキングに悪影響が及ばないようにする方法があります。

重複コンテンツとは?

重複コンテンツは、同じコンテンツが一意の URL で複数の場所に表示される場合に発生します。

重複コンテンツとして登録されるには、コンテンツが完全に一致している必要はありません。Google が「かなり類似している」と呼んでいるものでもかまいません。このコンテンツは、一部のテキストが異なっていても、基本的に「十分に近い」重複コンテンツと見なされます。

ほとんどのサイト所有者は、コンテンツが新鮮でオリジナルであるように懸命に努力していますが、それでも Web 上には重複コンテンツが数多く存在します。サイト所有者がそれに気付いていない場合もあります。では、これはどのように起こるのでしょうか?

重複コンテンツはなぜ発生するのか?

Web 上の重複コンテンツのほとんどは、ページの印刷用バージョン、複数の異なる URL にある、または複数の異なる URL によってリンクされている製品、同じページのデスクトップ バージョンと簡略化されたモバイル バージョンを生成するディスカッション フォーラムなどのインデックス作成が原因で発生します。

ただし、重複コンテンツがサイト上に発生する原因はこれだけではありません。重複コンテンツがサイト内および外部の他のサイトで発生する例をいくつか示します。

内部で生成された重複

かなり類似した製品ページ

特に e コマースでは、意図的にかなり類似したページを作成することが理にかなっている場合があります。たとえば、同じ製品を 2 つの異なる国で販売しているとします。その場合、2 つのほぼ同じページを作成することを選択できますが、1 つのページでは価格を米ドルで表示し、もう 1 つのページではカナダ ドルで表示します。

もう 1 つの例は、同じコピーが掲載されているためかなり類似しているように見える製品ページです。実際の違いは、製品の画像、製品名、および製品価格だけです。

コンテンツ管理システム

コンテンツ管理システムは、気付かないうちに重複コンテンツを作成することがあります。一部のシステムでは、検索用のタグと URL パラメータが自動的に追加されるため、まったく同じコンテンツへのパスが複数存在することになります。

URL のバリエーション

同じコンテンツを掲載する異なる URL のバリエーションがある場合も、重複コンテンツになる可能性があります。前述のように、コンテンツ管理システムが独自にこれを実行する場合があり、https://www.website.com/blog1 と https://www.website.com/blogs/blog1 のような 2 つの URL バリエーションが作成される可能性があります。末尾のスラッシュや大文字の URL などの他の URL のバリエーションでも同じ問題が発生する可能性があります。

このような状況が発生すると、Google はどのページをランク付けすればよいか分からず、一部の外部ソースはこれらのページの 1 つにリンクし、他のソースは重複ページにリンクするため、その過程でページのリンク エクイティが分割されます。

HTTP と HTTPS、www と非 www

ほとんどの Web サイトは、www の有無にかかわらず、または HTTP または HTTPS の URL の両方でアクセスできます。ただし、サイトを正しく設定していない場合、Google は複数のページをインデックスに登録し、重複コンテンツが発生する可能性があります。

プリンター フレンドリー URL とモバイル フレンドリー URL

元のページとは異なる URL でホストされているプリンター フレンドリー ページまたはモバイル フレンドリー ページは、適切に noindex されていない限り、重複コンテンツになります。

セッション ID

セッション ID は、サイトを閲覧している訪問者を追跡するための便利なツールです。これは通常、長いセッション ID 文字列を URL に追加することで行われます。各セッション ID は一意であるため、新しい URL が作成され、コンテンツが重複します。

UTM パラメータ

パラメータは、さまざまなソースからの訪問者を追跡できます。セッション ID と同様に、ページのコンテンツは同じであっても一意の URL を生成するため、インデックスに登録されると重複コンテンツが作成されます。

外部で生成された重複

シンジケート コンテンツ

コンテンツを Web 上の他のサイトにシンジケートすることは、Web サイトへのトラフィックを増やし、名前を広める優れた方法です。ただし、適切な正規ヘッダータグでフォーマットされていない場合、このコンテンツは重複コンテンツとして表示される可能性があります。たとえば、Medium の記事で正規タグを使用すると、元のコンテンツが重複として登録されるのを防ぐことができます。

盗作

重複コンテンツのほとんどは本質的に悪意はありませんが、一部のウェブサイト所有者は、自分で作成したものではないコンテンツから利益を得ようと、意図的にコンテンツをコピーします。

重複コンテンツの SEO: なぜ重要なのか?

重複コンテンツが頻繁に発生する場合、なぜ重要なのでしょうか? 検索結果で上位にランクされる能力に影響を与える可能性がある 5 つの方法を以下に示します。

1. Google の重複コンテンツ ペナルティ

ほとんどの場合、Google は重複コンテンツに直接ペナルティを課しません。Google がサイトの重複コンテンツが「欺瞞的」であり、「検索エンジンの結果を操作することを意図している」と判断した場合、

    重複コンテンツ ペナルティを適用することで対策を講じることができます。そのため、頻繁に発生するわけではありませんが、Google の重複コンテンツ ガイドラインによると、重複コンテンツがひどく、悪意を持って作成されたと考えられる場合は、直接ペナルティを受ける可能性があります。

    重複コンテンツに対する Google のペナルティはまれであるため、より差し迫った懸念は、重複コンテンツと SEO の関係です。

    2. インデックスの肥大化

    インデックスの肥大化は、検索エンジンのクローラーが重要でないコンテンツや低品質のコンテンツ (前述の印刷に適したページなど) にアクセスしてインデックスを作成するときに発生します。これにより、検索エンジンがユーザーにどのバージョンのコンテンツを提案すればよいか分からず、望ましいバージョンとは異なるバージョンをランク付けする可能性があるため、重要なページをランク付けする能力に影響します。また、クロール バジェットにも影響します。

    3. クロール バジェット

    Google は、サイトのクロールに費やす時間を制限しています。Google がサイトをクロールしてインデックスを作成するために提供するリソースの量が、クロール バジェットです。重複コンテンツが多いと、それほど重要でないページにクロール バジェットを無駄に費やすリスクがあります。 (クロール バジェットを最適化する方法については、こちらをご覧ください。)

    4. キーワードのカニバリゼーション

    1 つのページのコピーが複数ランク付けされている場合、ページは同じキーワードと可視性を求めて互いに競合することになります。他のすべてのページと競合するだけでも十分大変なのに、なぜ自分自身と競合してさらに困難にするのでしょうか?

    結局のところ、SEO の重複コンテンツの問題を無視することはできません。可能な限り、重複コンテンツを統合または削除するようにしてください。(キーワードのカニバリゼーションを見つけて修正する方法については、こちらをご覧ください。)

    5. リンク エクイティの低下

    Google が、かなり類似した 2 つのページをランク付けすることにしたとします。Google は、コンテンツの価値をすべて 1 つのページに帰属させるか、それとも権威、リンク エクイティ、信頼性を両方のページに分割するかをどのように判断するのでしょうか。この状況は、コンテンツの SEO 価値を低下させ、パフォーマンスの低下を引き起こす可能性があります。

    バックリンクのリンク エクイティも、他のサイトがリンクするかどうかに応じて 2 つのページに分割されます。

    自分のサイトで重複コンテンツを確認する方法

    サイト上の重複コンテンツを見つけるのは無料で簡単です。Screaming FrogSiteliner の無料版を使用して、サイトを系統的にクロールし、完全に重複しているページやほぼ重複しているページを特定します。

    Screaming Frog を使用して重複コンテンツを発見する方法

    Screaming Frog は、Web サイトの重複コンテンツの問題を特定できる Web サイト クローラーおよび SEO 監査ツールです。Screaming Frog を使用して最大 500 個の URL を無料でスキャンする方法は次のとおりです。

    1. SEO Spider を使用してサイトをクロールする

    まず、Screaming Frog をダウンロードして開きます。クロールする Web サイトの URL を [スパイダーに URL を入力] フィールドに入力し、[開始] をクリックします。

    seo spider のスクリーンショット

    2. [コンテンツ] タブで重複を確認する

    [コンテンツ] タブをクリックして、完全に重複しているページやほぼ重複しているページを確認します。正確な重複はリアルタイムで確認できますが、類似重複のリストを表示するには「クロール分析」を実行する必要があります。

      screamingfrog で重複コンテンツを見つける

      3. 類似重複をチェック

      メニュー バーの「クロール分析」タブをクリックし、ドロップダウン メニューから「開始」を選択します。

      クロール分析が終了すると、類似重複の列が表示されます。「分析」の進行状況バーが 100% になり、類似重複フィルターに「クロール分析が必要です」というメッセージが表示されなくなるので、分析が終了したことがわかります。

      screamingfrog で類似重複コンテンツを見つける

      4. 「コンテンツ」タブで重複を表示

      クロール分析が完了すると、「最も近い類似性一致」、「類似重複数」、「アドレス」の各列に値が入力されます。

      「正確な重複」フィルターは、HTML コード スキャンに基づいて互いに同一のページを表示します。設定された類似性のしきい値によって、「ほぼ重複」とみなされるものが決まります。しきい値を変更するには、「設定」→「スパイダー」→「コンテンツ」に移動します。このしきい値はデフォルトで 90% に設定されていますが、自由に変更できます。

      スキャンが完了したら、完全な重複またはほぼ重複として表示されるページを手動で確認します。

      Siteliner を使用して重複コンテンツを発見する方法

      Siteliner は、Web サイト (または任意の Web サイト) をスキャンして重複コンテンツを探すために使用できるもう 1 つの無料ツールです。ただし、無料版では 30 日ごとに 1 回しか使用できず、結果の数は 250 ページに制限されます。複数の検索を実行する必要がある場合や、より多くの結果を表示したい場合は、プレミアム バージョンにサインアップしてください。

      Siteliner を使用して重複コンテンツを見つける
      Siteliner を使用して重複コンテンツを見つける

      Siteliner で重複コンテンツを確認するには、検索する URL をホームページの検索ボックスに入力するだけです。

      Siteliner はサイト全体をスキャンし、重複コンテンツがどれだけ見つかったかを示し、最も問題と思われる点を強調表示します。また、平均ページ読み込み時間、内部リンクと外部リンク、インバウンドリンクなど、SEO に役立つ指標もいくつか表示されます。

      siteliner の結果
      siteliner の結果

      二つ目のグラフの右側の click [here] をクリックすると、Siteline が重複コンテンツがあると特定したページが表示されます。

      各行をクリックすると、どのテキストが重複しているとフラグ付けされているかが表示されます。

      注: Siteline は、複数のページに表示されるヘッダーとフッターを重複コンテンツとして特定するため、メニューまたはフッターのコンテンツが同じであるため、一致率が低いページが多数表示されることがあります。

      他のユーザーがコンテンツをコピーしたかどうかを確認する方法

      Web 上の他のユーザーがコンテンツをコピーしたかどうかを確認するために使用できる重複コンテンツ検索ツールもあります。Copyscape は、効果的で使いやすい無料の Web サイト コンテンツ チェッカー ツールです。

      検索ボックスに URL を入力し、その横にある [実行] ボタンをクリックするだけです。Copyscape は、Web 全体の検索を実行して、同様のテキスト コンテンツが他の場所に存在するかどうかを確認します。

      Copyscape のスクリーンショット

      何かが見つかった場合、Copyscape は結果を返し、Google の検索結果のようなリストに整理します。これにより、簡単にスクロールして、コンテンツがどれだけコピーされているかを確認できます。これは、Google の重複コンテンツ チェッカーのようなものだと考えることができます。

      他の人があなたのコンテンツを盗用していることに気付いた場合はどうすればよいですか?

      まず、ウェブサイトの所有者に連絡して、コンテンツを削除するか、ウェブサイトの元のコンテンツへの正規リンクを追加するように依頼します。それでも問題が解決しない場合は、Google に DMCA 削除リクエストを送信します。

      注: 意図的にコンテンツをシンジケートし、他のウェブサイトで公開できるようにした場合、重複として表示されます。そのため、検索エンジンのランキングで自分のページと競合しないように、公開サイトに正規リンクまたは noindex タグをページに含めるように要求することが重要です。

      重複コンテンツの修正方法

      重複コンテンツの問題を修正するには、Google に元のバージョンとして認識させたいコピーを特定します。また、重複ページを完全に削除するか、Google にインデックス登録しないように指示するかも決定する必要があります。決定内容に応じて、重複コンテンツをクリーンアップする方法はいくつかあります。

      メタ ロボット タグと robots.txt による noindex

      重複コンテンツが SEO に与える影響を最小限に抑える方法の 1 つは、メタ ロボット タグを変更して重複ページを手動でインデックス登録解除することです。これを行うには、メタ ロボット タグを使用し、その値を「noindex, follow」に設定します。このタグを、検索結果から除外したい各ページの HTML 見出しに適用します。

      メタ ロボット タグにより、検索エンジンは、タグが適用されたページ上のリンクをクロールできますが、検索クローラーがそれらをインデックスに含めることはできません。

      インデックス登録したくないのに、なぜ Google にページをクロールさせるのでしょうか。それは、Google がサイト上の重複コンテンツへのクロール アクセスを制限しないように明示的に警告しているからです。インデックス登録したくない場合でも、Google は重複コンテンツが存在することを知りたいのです。

      noindex タグは、HTML コードに適用すると次のようになります:

      <head> [code] <meta name=”robots” content=”noindex, follow”>[必要な場合はその他のコード]</head> 

      [code] [必要な場合はその他のコード]

      meta robots タグは、重複コンテンツをインデックスから削除し、Web サイトに非常に類似したページやまったく同じ重複ページが存在することで発生する可能性のある SEO の問題を回避するためのシンプルで効果的な方法です。

      Google やその他の検索エンジンによるインデックス作成をブロックしたいディレクトリがある場合は、robots.txt ファイルを編集してください。

      301 リダイレクト

      重複コンテンツの問題に対処するもう 1 つの方法は、301 リダイレクトを使用することです。301 は、トラフィックを重複ページから別の URL に転送する永続的なリダイレクトです。301 リダイレクトは SEO に適しており、複数のページを 1 つの URL に結合してリンク エクイティを統合するのに役立ちます。

      301 リダイレクトを使用すると、重複ページまたはかなり類似したページはトラフィックを受け入れなくなります。そのため、重複ページにアクセスできなくなっても問題ない場合にのみ、たとえばコンテンツを整理する場合に使用してください。ページにアクセスできるようにしたい場合は、メタ ロボット タグを使用して noindex にします。

      rel 正規

      重複コンテンツを管理するもう 1 つの方法は、rel=canonical 属性を使用してページに優先順位を付けることです。rel=canonical 属性を HTML タグ内に配置すると、特定のページが別のページのコピーとして存在し、このページに属するすべてのリンクとランキング パワーが実際には正規ページに帰属することを検索エンジンに伝えることができます。

      rel=canonical タグを HTML コードに適用すると、次のようになります:

      <head> [code] <link href=”優先ページのURL” rel=”canonical” /> </head>

      また、自己参照型の canonical タグを使用して、特定のページを元のバージョンとして扱うように指定することもできます。

      XML サイトマップから URL を削除する

      XML サイトマップには、インデックスを作成する URL のみを含める必要があります。サイトマップを自動的に更新する動的 URL を使用していない場合は、サイトマップを手動で編集してnoindex またはリダイレクトした URL を削除します。

      Google Search Console で URL を削除

      ページをリダイレクトするかインデックス登録を制限する場合は、Google にその URL をインデックスから削除するようリクエストします。

      Google Search Console にログインし、左側のメニューから [削除] を選択します。

      GSC の URL 削除ツール
      GSC の URL 削除ツール

      URL を送信すると、Google のインデックスから 6 か月間だけ削除されることを知らせるボックスが表示されます。その期間が経過すると、Google がサイトをクロールしてその URL に遭遇した場合、リダイレクトまたは robots タグによってブロックされていない限り、再インデックスされます。プレフィックスを共有する URL が複数ある場合は、プレフィックスを送信して、Google のインデックスからすべての URL を一時的に削除することもできます。

      Google のインデックスから削除をリクエスト
      Google のインデックスから削除をリクエスト

      6 か月後、Google は URL を再度クロールしようとします。適切にリダイレクトまたは noindex した場合、検索エンジンの結果ページ (SERP) には表示されなくなります。

      テクニカル SEO の問題を特定するのにヘルプが必要ですか?

      サイトのランキング能力を向上させたいとお考えですか? データ主導の SEO 代理店と提携して、お客様の Web サイトの技術的な SEO 問題を特定し、SERP の上位に上がるための効果的な SEO 戦略を開発しましょう。今すぐ無料の SEO コンサルティングを予約して、私たちがお客様のために何ができるかをご覧ください。

      「重複コンテンツ SEO: 重複コンテンツの確認方法」への1件のフィードバック

      コメントする

      サーチエンジンブリッジ・ブリッジロゴ
      SEOの架け橋サーチエンジンブリッジ