SEO野郎
Googleは重複コンテンツをどう評価・処理するのか?クラスタリングとcanonicalについて
見出し画像

Googleは重複コンテンツをどう評価・処理するのか?クラスタリングとcanonicalについて

SEO野郎

レベル:中級

こんにちは、SEO野郎です。

今日は重複コンテンツについて、

・重複コンテンツがあると評価が下がるのか
・Googleはオリジナルのページをどう判断するのか
・オリジナルURLを正しく選んでもらうためにどうすれば良いのか

などのテーマで解説していこうと思います。


重複コンテンツとは?

SEO業界では、いわゆる「重複コンテンツ」が広い意味で使われており、誤解を招くケースがあります。
いわゆる重複コンテンツとは何なのか、Googleが公式に使用する重複コンテンツという単語が何を示すのかをまずは知っておく必要があります。

主に「重複コンテンツ」とは以下の3パターンを指し示す際に使用されます。


1. 同一ウェブサイト内で全く同じ、または大部分が共通のコンテンツにアクセスできる別のURL
2. 同一ウェブサイト内で内容が似通っている記事
3. 第三者のサイトに無断に転用されているコンテンツ

ちなみにGoogleが一般的に「重複コンテンツ」(duplicated content)と呼ぶのは②の一部と①のみです。

それぞれのパターンで、Googleの評価と処理、サイト運営者の正しい対応も異なるので全て分けて考える必要があります。


1. 同一ウェブサイト内で全く同じ、または大部分が共通のコンテンツにアクセスできる別のURL

全く同じコンテンツにアクセスできるURLとは、
・httpとhttpsバージョン
・URLのwww有無
・URL末尾に .html や .index が付いているバージョン
など、内容は全く変わらないが、同一コンテンツに対して生成されてしまう複数のURLのことです。

また、メインコンテンツの共有部分(ボイラープレートと言います)が共通で、地名や情報バリエーションが異なるページもこれに含まれます。(商品のサイズ違いや色違いなど)

主にGoogleはこれのことを重複コンテンツ(正しくはdeplicated contents 、複製コンテンツ)と呼んでいるので、Googleの公式情報を参照する際は②、③は別だと思っておいてください。

① 複製コンテンツに対するGoogleの対応
(1)ページと複製ページを特定し、クラスタリングする
(2)クラスターを代表するURLを選定し、オリジナルのページをインデックスする(ユーザーに提供されるURL )
(3)代表URLと複製ページ群のマップを作成し、代表URLにランク評価等のシグナルを転送する

② クラスタリング対象になるURLの指標
(1)リダイレクト
 ・Googleは基本的にリダイレクトを信用する
 (ほぼ完璧に複製コンテンツを示すため)
(2)コンテンツ
(3)rel=canonical
(4)その他

③ ローカライズのクラスタリング
(1)メインコンテンツが同じであればローカライズページもクラスタリングされる
(2)(1)はボイラープレートだけのローカライズも含む
(3)ジオリダイレクトも基本的にクラスタリングされる
(4)このギャップを繋ぐためにhreflangのオルタネートが使用される

④ 正規URLの選出指標
canonical URLは以下の指標の加重基準で選出されており、その加重は機械学習で制御されています。
(1)サイト内の優先順位
 ・canonicalのアノテーション
 ・リダイレクト
 ・内部リンク
 ・サイトマップに掲載されているURL
 ・https(httpよりも優先)
 ・”Nicer”-looking URLs:URLの文字列
(2)ユーザーの利便性

⑤ 正しく正規化するために
・リダイレクト、canonicalを正しく設定する
・hreflangを設定する
・ハッキングされたケースはフォーラムにレポートする
・ページのセキュリティを保つ

⑥ 類似ページの正規化
地名違いや商品の色違いなど、メインコンテンツの大部分が同じのページの対応の戦略については別の記事でしっかりまとめようと思います。
類似ページを正規化したい場合、
・前提としてコンテンツに差異を設ける
・特に主要なタグのコンテンツに差異を設ける
・自己参照のcanonicalを設置する
・内部リンクを当てる
などの対応を取ることで正規化される可能性を高められます。


2. 同一ウェブサイト内で内容が似通っている記事

記事型のメディアにおいて、本文の内容やキーワードが似通っている記事を「重複コンテンツ」と呼ぶサイト運営者がいますが、これは本来の重複コンテンツとは異なります。

① Googleの判断と対応

「内容が似ている記事が存在することで順位を下げる」というアルゴリズムは存在しません。
また、狙っているキーワードが似通っていたり本文がある程度被っていたりしても重複コンテンツとしてクラスタリングされることはほとんどありません。(本文の99%が同じとかだとクラスタリングされるケースもあります)

② Webサイト運営者の対応
SEO施策として、このパターンの類似ページを削除したら順位が上がったという話をたまに聞きます。
これは、類似ページが存在することで順位が下げられていたということではありません。
ユーザーにとっては1つで良いページが複数存在することで分散していた、リンクやユーザーアクションなどのシグナルが統合されることにより片方のページの評価がより上がったという現象です。

Googleは「重複、類似するコンテンツを統合する」ことを推奨してもいます。
このタイプの重複コンテンツについては、シンプルに
「このページはユーザーにとって存在価値があるかどうか」
という軸で考え、削除したりコンテンツを統合したりすると良いと思います。


3. 第三者のサイトに無断に転用されているコンテンツ

意図的にキュレーションメディアなどに盗用されるケースや、ハッキングされたサイトに機械的にコピーされるケースなどがあります。

① Googleの判断
Googleはデータベース上ではコンテンツが作成された日付(厳密にはそれを初めてクロールした日時)という情報を保有していますが、それをオリジナルコンテンツの判定には使用していません。
オリジナル判定は、ドメインのオーソリティや被リンクなどのシグナルで判断されています。
したがって、小規模メディアや新生メディアのコンテンツが、権威性の高いメディアや超大規模サイトに転載されると、盗用ページの方が上位表示されることが割とあります。

② Webサイト運営者の対応
これはSEOの問題というよりは著作権の問題になります。
第三者のサイトに無断でコンテンツが盗用されていることに気付いたら、以下の対応を取りましょう。
・サイト運営者に連絡
・DMCA申請


重複コンテンツで機会損失にならないように

以上、重複コンテンツについてでした。

シンプルな記事型のメディアだと特にcanonicalの対応などはしなくても問題ありません。

しかし、URL構造が複雑なサイトや大規模サイトになると、正当な評価を意図したページに集められているかを意識する必要があります。

その際の参考になれば嬉しいです。

SEO野郎でした。

この記事が気に入ったら、サポートをしてみませんか?
気軽にクリエイターの支援と、記事のオススメができます!
SEO野郎
SEO野郎です。 メディアをたくさん運営してきました。 メディアとSEOが好きです。 毎日何かしら更新します。 SEOのご相談お気軽に。