見出し画像

Google検索アルゴリズム(内部SEO編)

こんにちは、なんでも屋のななおです。
今回はGoogleアルゴリズムについて詳しく紹介してきたいと思います。

パンダアップデートやペンギンアップデートのような大規模な改良は有名だと思いますが、本記事ではメジャーアップデートからマイナーアップデートまで紹介させていただきます。

Googleアルゴリズムを理解することで、SEO対策にも役に立つので軽く目を通しておくと良いでしょう。

本記事の内容は他のサイトや教材を読み、独自の判断で信憑性が高い情報をPICK UPし、まとめた情報になります。

内部SEO取り組むできこと

内部SEO要因とは保有サイトを管理することで直接操作できるSEO要素のことです。

良い影響を与える内部SEO要因とは「コンテンツの内容」「あらゆる環境からのアクセシビリティ」「ユーザ体験への工夫」に関係するものになります。

URL内のキーワード

ドメイン外のURL部分に含まれるキーワードや表現はそれらのクエリでの検索において、コンテンツとの関連性を確立する助けとなります。URLの長さが長くなりすぎたり、キーワードを繰り返し使用したりすることによりこの効果は薄れていく傾向にあります。

URL前半部分のキーワード

URL内の前半の方に主要キーワードを設置すると良好で、理論的に言えば前に出現するキーワードに比重がかけられているといえます。

タイトルタグ内のキーワード

タイトルタグはサイト上の文章やページのタイトルを定義づけるものであり、同時に検索結果やSNS上でのシェア時におけるスニペット上にしばしば出現するタグである。 文字にもよるが、30文字以内に納めることをおすすめです。URLと同じように、前半部分のキーワードに比重が置かれるという説が最も有力です。

ページ内のキーワード密度

実践的なSEOでは過去に、5.5-6%のキーワード出現率が最も効果があると定義づけられたことがあります。 確かに2000年代前半から中期にかけてはこの数字はかなり効果的であった。そのためGoogleはコンテンツ解析の方法を改良しており、2015年現在においてこの方法はほとんど効果がないと言って良いだろう。キーワードの出現率が高すぎた場合、手動対策の対象となる場合があります。

ページのTF-IDF

TF-IDF もしくは「単語の出現頻度及び逆文書頻度」とよばれるものについて述べよう。TF-IDFは通常計測した際のページ内キーワード密度よりも、「普通ではない」キーワードの出現率に対して重きを置くよう設計されています。 この計測方法では「その」のような、頻出する単語は計測から除外され、たとえば「Googleの順位決定要素」といった表現が、学問的教養を持った人間がそのトピックについて述べたドキュメントにおいて何回出現するのかを確定させることができます。

Hタグ内のキーワード (H1, H2, etc.)

Hタグ内のキーワードはページの主題を定義する際に強く比重のかけられるポイントであります。H1タグに最も比重がかけられ、次にH2、H3と続くほど少なくなっていく。Hタグは訪問者のユーザー体験を向上させ、明確で記述的なHタグは直帰率を下げることが多くの研究で明らかになっている。

強調表示された単語

太文字や斜体、下線、大きめのフォントなどによって強調表示されたキーワードはページの主題を決定する際にHタグほどではないが大きな比重をかけられる。このことはマット・カッツやSEO研究家によって立証され、Googleの特許には「大きなフォントか太文字、もしくは斜体で記載されたテキストはそうでない通常のテキストに対して重い比重がかけられるかもしれない」と記述されています。

キーワードの近隣性

お互いの単語同士の近さはそれらの関連性を暗に示している。英語を扱える人にとってこの情報は驚くに値しないことであると思う。つまり、1つの文章内で「渋谷のピザ屋」について述べた文章のあるページほうが、「渋谷」と「ピザ屋」について別々の文章で述べているページよりも「渋谷 ピザ屋」というキーワードで上位表示される可能性が高い。

ALTテキスト内のキーワード

画像ファイルのALT属性は検索エンジンや画像を表示できない環境のユーザーに対してその画像の内容を示すのにつかわれる。これは特に画像検索での関連性の向上や、ユーザー体験の向上に繋がります。

検索フレーズの完全一致

Googleは検索クエリのうちほんの一部しかコンテンツに含まれていないページを返すこともある(もしくは全く含まれていないケースもある)が、特許によると「情報検索スコア(IR)」は検索フレーズの完全一致に高い点数をつけるように設計されている。具体的にあげるとするなら、特許の「検索クエリの全ての言い回しに完全一致するドキュメントは、一部一致するドキュメントよりも高い点数が与えられるべきである」という部分に当てはまる。

検索フレーズの部分一致

これはGoogleの特許により立証されていることだが、ページが検索フレーズと完全一致するフレーズをコンテンツに有していた際、それはクエリとの関連性を強く認められIRスコアを高く付けられる。この過程においてGoogleに入力された検索クエリと完全一致しないフレーズしかコンテンツ内にないとしても、そのクエリで順位が付く可能性は十分にあることをGoogleは認めている。これは、色々なクエリでグーグル検索をした結果を鑑みても明らかです。

ページ上部のキーワード

これは英語におけるきわめて自然な文法傾向といえるのだが、通常大事なことは先に言おうとする。これは文や文章、ページからHTMLのタグにいたるまで全てに当てはまることである。Googleもどうやらこの事実をあらゆる場所で適応しているようで、ページの上部やより目立つ場所のコンテンツに比重をおいているようだ。少なくともページレイアウト・アルゴリズムにおていてはサイトの上部(above-the-fold)にあるコンテンツが優先されるように設計されている。

キーワード語幹

キーワード語幹とは単語の根っことなる部分を取り出し、同一基語を持つ単語を探すことであります。キーワード出現率スコアのかさ増しが横行して、読めたものではないページが増えたことをうけ、2003年にフロリダ・アップデートとともにGoogleにより導入された。

内部リンクのアンカーテキスト

リンクのアンカーテキストは、そのリンクの飛び先をユーザに伝えるためのものです。これはサイト内のナビゲーションを構成する上で重要な要素で、且つ乱用しない場合に限り「ココをクリック」などという曖昧な内部リンクよりもコンテンツとキーワードの関連性を高めるのに効果的である。

ドメイン名がキーワード

これは完全一致ドメイン(EMD)にも関連することだが、ドメインと検索クエリが完全一致しGoogleの定義する「商業クエリ」に当てはまる場合、順位にボーナスが与えられます。ブランドがそのブランド名で上位表示されるべきという構想のもとデザインされたものであったが、あまりにも悪用するケースが増えすぎたため、現在では多くの場合で効果が減少している。

ドメイン名内のキーワード

キーワードがドメイン名内に含まれる場合、順位にボーナスが与えられます。その比重は特定の検索クエリとドメイン名が完全一致する場合よりは低いが、ドメイン名以降のURLにキーワードが含まれる場合よりは高くなっている。

ドメイン全体のキーワード密度

クリシュナ・バーラットはヒルトップ・アルゴリズムを導入する際にページランクの持つ問題点を次のように割り出した。「(ページランクによって)権威付けられたWebページが例え検索クエリに一致するコンテンツを有していたからといって、そのクエリのトピックについての権威であるとは限らない」。ヒルトップ・アルゴリズムはサイト全体の関連性を見て「専門的」というラベル付を行って検索結果の向上を行っていた。TF-IDFがページ単位での関連性を決定づけるものであるため、ヒルトップ・アルゴリズムが同じような機能を使ってドメインの「専門性」を決定づけていると推測したものである。

ドメイン全体でのTF-IDF

もし2015年現在において「ターム頻度(TF)の代わりにキーワード密度なんて言葉を使おうものなら、SEOの専門家たちがこぞって怒り出すことだろう。その2つの単語はほぼ同義語といっても過言ではないのにかかわらずだ。キーワード密度とTF-IDFの要素比較をする際に重要となってくるのはIDFの部分、すなわち逆文書頻度(Inverse Document Frequency)に他ならない。Googleは副詞のような単語をTF-IDFを利用して除外し、トピックに対する自然なキーワード密度を動的に見積もっている。「どれくらいが自然なのか?」という比較計量をすると、時間とともに数値は減ってきているようである。

ページ権威の分布

一般的にサイト全体からリンクされているページは権威が高くなり、そのページからのリンク、さらにその下となるにつれ権威は低くなっていく。同じような効果がトップページからリンクされているページに見られるが、これはほとんどのサイトにおいてトップページが一番リンクされているページだからである。この要因を最大限利用しようとして内部リンク構造を作ることはページランク・スカルプティングとして知られている。

オールドドメイン

完全に新しいドメインもアルゴリズムによって一時的なブーストがかかることがあるため混乱しがちだが、オールドドメインの方がほんのすこしだけ(マット・カッツがほんのちょびっとというところを強調していた)信用される。つまり、ぽっと出のドメインよりはブラックハットな一時的なドメイン利用でないと証明できる可能性がほんのすこし高いということである。

新規ドメイン

新規ドメインは一時的な順位ブーストがかかることがある。特許には新しいコンテンツの決定方法についての協議がなされており、そこには「ドメイン登録日時のドキュメント開始日時の指標としての使用」に関する項目がある。マット・カッツによれば、この項目が順位に与える影響は相対的にかなり小さいものだということだ。言うならば、この項目は真新しいサイトや、タイムリーなニッチサイトが飛躍するのに十分なチャンスを与えられるために存在しているにすぎない。

ハイフンで区切られたURL内のキーワード

URL内のキーワードを区切る理想的な方法はハイフンを利用することと言えるだろう。アンダーバーも利用できるにはできるが、プログラミングパラメーターと混同される可能性があるためあまり信頼性は高くない。全てのキーワードをつなげてURLに入れてしまうと、複数キーワードとしてみなされない可能性があり、結果どのキーワードでもURL内含有キーワードとしての効果の妨げとなることがある。ちなみにこれ以外の理由でハイフンを利用したからといって、順位に対してポジティブな影響をあたえるわけではない。

タグ前部のキーワード

2000年代はじめに提唱されたSEO理論に、「最初の1/3ルール」というものがあった。これは我々の言語(英語)において、文であれタイトル、文章、ひいてはWebページ全体であれ、一般的に並び順は重要度順であることに起因している。

長期にわたるドメイン登録

Googleは特許のなかで、長期にわたるドメイン登録がドメインの正当性を予測するのに信頼たるものであると直接明言している。考えてみればこれは、「短期的で、数の暴力に売って出てくる、イタチごっこ故に必要以上に長期登録するドメインを持たないWebスパム」に対抗するための手段なのかもしれない。

HTTPS(SSL)の利用

SSLはユーザーの情報入力をともなうか否かにかかわらず、2014年に正式にポジティブな順位要因として組み込まれた。ゲイリー・イリーズは2015年にSSLの重要性を低いものとし、ただ単なるタイブレーカーとしての役割にすぎないと表現している。数値スコアをベースとしているアルゴリズムが見ているサイトは何十億とあるのにもかかわらず、競争率の高いクエリにおいてタイブレーカーが意味をなしていることは意外と多い。

Schema.org

GoogleとYahoo!、Bing、Yandex の共同プロジェクトであるSchema.org の出現により、キーワードが潜在的にもつ理論データを理解できるようになってきた。その結果、検索結果ページは、我々のおなじみの「10この青いリンクページ」から大分進歩したといえるだろう。いまのところ構造化データの利用は、あらゆる種類の状況下で順位を伸ばす可能性を持っている。また伝統的な順位においても、entity salience(※訳注 とあるキーワードに対してGoogleが一般的に知られる情報を自動で結びつけて関連性を判断すること)として知られる順位要素を満たすことで有利になる可能性はある。

新鮮なコンテンツ

技術的な正式名称を言うならば「鮮度依存するクエリにおけるコンテンツの新鮮度」となるだろうか。この項目では通常QDFと呼ばれる、すなわち新しいコンテンツということに価値を置く意味があるクエリに関して述べる。これは全てのクエリに対して適応されるわけではないが、特に情報分野におけるクエリなど、かなり多くの場合に適応される。この恩恵を顕著に受けているのが、ブランド出版サイトと言えるだろう。

古いコンテンツ

Googleの特許には「あるクエリにおいては、古いドキュメントが新しい物より価値があるものもある」と記述されている。そこにはドキュメントの平均の古さを考慮して検索結果を表示する前に並び替える可能性があることも示唆されている。

質の高い外部へのリンク

外部へのリンクは「ページランクの流出」を招く可能性があるにはあるが、Webサイトというものは本来行き止まりであるべきではない。Googleは「良いサイト」に対する外部リンクに評価を与える。マット・カッツの言葉を拝借するなら「我々(Google)のシステムは良いサイトに対してリンクすることを推奨している。」

正しい綴りと文法

これはBingの順位要素であるが、Googleのアミット・シンハルも次のように述べている。「我々もこれと同じようなことを求めている」つまり、綴と文法の正確性をコンテンツの質として考慮するということをだ。マット・カッツは2011年に「ずっと昔はね」という言葉とともにこの要素を使っていることを否定したが、何らかしらの要素で順位との相互関係はあるだろう。例えば、一番最初のパンダ・アップデートではかなり誤字脱字と文法ミスの影響があったように感じた。それはともかく、コンテンツに関係のある要素が綴りと文法に左右されないはずがないだろう。

リッチメディア

画像検索や動画検索からより大きなトラフィックを生むようなリッチメディアは「質の高いオリジナルコンテンツ」とみなされるに足るものであるといえよう。動画はパンダ・アップデート2.5の決定要因として利用されたようでもある。ただ、今のところこの要素を確定させる確固たる証拠は発表されていない。

サブディレクトリ

カテゴリ別情報設計についてのSEO議論は、Googleがサイト全体のトピック分布を分析しているらしいという情報もあって、長いことなされてきた。これがランキングにもたらす影響がどれほどのものかははっきりとはわからない。ただGoogleはこの情報を構造化データの参考としているし、少なくともパンくずが検索結果ページに表示されるようになったので、より多くのページをランキングさせることはできる。

モバイル・フレンドリー

モバイル・フレンドリーなサイトは著しい順位恩恵を受ける。今のところ、この要因で影響を受ける順位は、ユーザーがモバイル・デバイスを利用して検索をした場合の順位に限定されている。このことは、モバイルがSEOのなかでも主流になったことを意味し、2015年のモバイル・アップデートで決定的なものとなった。しかし、この流れになることを専門家たちは10年近く前から予見していたが。

ccTLDと国内検索

例えば.jpや.ukなどのCountry code TLDは、Webの国際化が進んだことも有り、そのドメイン対象国内での検索順位に良い影響をもたらすと信じられている。特に別の国のccTLDサイトと比べたとき顕著になると考えられている。

Salience of Entities

時間とともにGoogleは単語やフレーズの解析そのものよりも、それらの持つ意味や理論的本質性というものの解析に重きを置くようになったようである。それはページ上に含まれているキーワードクエリというものを、一般ユーザーがどういうクエリに置き換えるのかを知るための研究である。わかりやすく例えると、どうしたら「肉料理の方法」という検索クエリで、どこにも「肉料理」というキーワードの出てこないステーキのレシピページを検索結果に返すことができるのかというようなことである。

フレーズと文脈

キーワード出現率が実質上意味を持たなくなってきたため、基本的なフレーズベースのインデックス理解は、ただたんにキーワードを全体に詰め込んだコンテンツよりも、全体的にかつ精巧に書き上げたコンテンツのほうが良い順位を与えられるものになっていると考えて間違いないだろう。Googleの特許の中でこの要素は「関連フレーズの同一性及び集団的関連フレーズ」と表現されている。

ユーザ付近のWebサーバ

Googleは多くのローカルクエリと伝統的なGoogleマップ検索、オーガニック検索では違う働きをする。同じことは国内検索と国際検索でも言える。サイトを、少なくとも検索ユーザと同じ国内のサーバでホストすることは検索結果に影響を与えることがある。

サブドメインの使用

サブドメイン(thing.yoursite.com)はしばしばGoogleによって、別サイトとしてみなされることがある。サブフォルダ(yoursite.com/thing/)との違いはココであると言えるだろう。2012年のマット・カッツいわく、サブフォルダもサブドメインも「だいたい同じ」で、そこまで違いが顕著に出ることはないが、ときどき出るらしい。2012年のパンダ・アップデートからのHubPagesの回復事例で、サブフォルダからサブディレクトリへの移管という方法が有ったのだが、そのことを鑑みるとまだまだ大きな要因であると思われる。

サブドメインの数

サイト上のサブドメインの数はサブドメインがそれぞれで全く別のサイトとして使用されている(無料のWebホスティングサービスやHubPagesのようなホスティングとSNSのハイブリッドサービスなどがよく使用している)のか、それとも単純に同一サイトの一部として使用されているのかを判断するための、最も顕著な要因といえる。例えば、何千ものサブドメインを有するサイトなら、それは同一テーマにそった1つのサイトとして存在しているわけではなく、それぞれのサブドメインごとに別の運営者がいると考えられる。

アクセス可能なコンタクトページ

正当性を示すものとして使われている可能性があるとする説もある。この項目は「Google品質評価ガイドライン」という文書の中で「ベストなサポート」という評価の項目で示されている。この文書内でGoogleは、評価者たちに「信頼できる連絡先情報」を探すことを求めている。

表示タイトル前部のキーワード

10年以上、キーワードから始まるタイトルのほうが、キーワードで終わるタイトルより順位が良くなるのかどうかの研究がなされてきた。簡単に調査することができ、殆どの場合において「キーワードから始まるほうが良い」という結果になる。もっと詳しい情報を載せているソースもある。Thumback.comの調査では、タイトルのキーワード順番の並び替えで20~30%程のトラフィック変化が起こった。また、彼らの調査の中で、一番トラフィックの良かったページのタイトルはキーワードから始まるものではなかったが、Googleによって検索結果ページではタイトルが書き換えられており(https://www.youtube.com/watch?v=L3HX_8BAhB4)、キーワードから始まるものになっていたようだ。

他サイトより独創的なコンテンツ

Googleの特許とこの要素に関するSEOの研究によれば、Googleは似たようなコンテンツに低い評価をつけるようである。この特許は、一度関連性のあるコンテンツのグループと決定されたら、一体どのコンテンツが記述的でユニークでそして(いい意味で)奇抜なのかを様々な方法で検証するよう設計されている。

自サイト内でより独創的なコンテンツ

Googleの特許によると、本物のユニークさ・奇抜さと言うのはコンテンツの精巧さと同じくらい評価されるべきで、それにより「ユニークスコア」というものをつけている。これはテキストの情報ブロックの定量と定性調査で決定される。知られている限りでは、Googleがユニークスコアをつける際に取る方法はたくさんの文書を比較するということだけである。重複コンテンツはサイト内・外両方の観点から決定されるが、おそらく「ユニークスコア」でも同じことが言えそうである。

サイト全体でのユニークスコア

クマールとバーラトの特許「ユニークコンテンツの見極め」には、どうやってそれぞれの文書の「奇抜さ」をスコアリングするのかが書いてある。サイト全体での平均ユニークスコアを要素に含むところは、サイト全体のコンテンツの薄さをみるパンダ・アップデートやサイト全体の専門性を見るヒルトップ・アルゴリズムに似ているといえよう。

マイナスに働く内部SEO要因

減点的な内部SEO要因とはそれを行うことによって、現状の順位を下げる可能性があるものである。これらの要素はアクセシビリティ・評価減・ペナルティの3つに分類できる。

①アクセシビリティの問題はGoogleクローラービリティを妨げたことによる、正当な評価の妨害に起因するものである。
②評価減は質の低いサイトの指標になるものや、サイトの評価の妨げになる問題のことである。
③ペナルティはもっと深刻な問題で、長年築いてきた努力も一瞬で無に帰す可能性を持っている。

繰り返しになるが、内部要因はすべてあなたのサイト上の管理でコントロールすることができるものである。

サイト全体に関する要因

ドメイン全体で薄いコンテンツ

大昔にGoogleはコンテンツの質やオリジナリティを理解しようと躍起になっていたことがあった。パンダ・アルゴリズムが導入されたことにより、もはやこれはページ単位の問題ではなく、ドメイン全体の問題になったと言っても良いだろう。ということで、この問題はいかに検索エンジン上のコンテンツの平均的な質を向上させるかということであり、ブログの「タグ」ページに代表されるような、どうしようもない繰り返しページにnoindexを入れたりすることが効果的だったりする。

ドメイン評価が低い

ドメインは時を超えてGoogleに評価される。それは例えドメイン所有者が変わって完全に違うサイトが運営されていたとしてもだ。前オーナーのせいでペナルティを引き継いでしまうことだってある。

過剰な内部リンク

かつてマット・カッツは1ページあたりのリンクの数は明確に100個以内に制限していると述べていたが、のちに「妥当な数に保つこと」と表現を変更した。これはかつてGoogleのクローラーが1ページあたり100kb以上ダウンロードしなかったことに起因している。これはもはや事実ではないが、それでも全てのリンクはPageRankを受け渡してしまうので、Googleの仕組みを考えるならあり得る話だとは考えられる。

過剰な外部リンク

PageRankアルゴリズムの単純な構造を考えれば、過剰な外部リンクがPageRankをドメインの外に流出させてしまうということは簡単に理解できる。マイナス要因になるのはあくまでも「過剰な」場合に限る。「適度な」外部リンクはむしろプラスの要因になることをマット・カッツも同じソースで認めている。

過剰なフッターリンク

まず明確にしておかなければならないが、フッター部分に詰め込まれたリンクというのは、本文(コンテンツ)部分に記述されたリンクよりも価値が下がる。また、有料リンクスパムへの対応についてGoogleが初めて説明し始めた時、有料リンクスパムの手法としては、サイトのフッター部分に何十という有料リンクを詰め込むことが主流だった。そのためフッターに外部へのリンクを付け過ぎると、なにかしらのペナルティを引き起こす可能性がある。

孤立したページ

内部リンクをどう辿ろうが行き着くことがほぼ不可能な孤立したページは、ドアウェイページとして扱われWebスパム判定される可能性がある。そこまでの事態にはならないにせよ、そういったページは内部のPageRankの恩恵を受けられず、権威からは程遠いものになるが。

リンク販売

マット・カッツはツールバーPageRankが、リンク販売を行ったことにより7から3に落ちてしまった例を見せている。PageRankの受け渡しを目的としたリンク販売はGoogleのWebマスターガイドラインでペナルティ項目として扱われている。

コンテンツに関する要因Body内の過剰なキーワード出現率

キーワードスタッフィングペナルティは、過去にキーワードを詰め込めば詰め込むだけ順位が上がった時代のスパムに対抗するために導入された。とある実験によればキーワード出現率が6%を超えた段階でペナルティが発動することもあった。TF-IDFは働いていたが、トピックやキーワードの種類、文脈に大きく左右されるようだ。

キーワード出現の希薄化(内容の薄いコンテンツ)

もし高いキーワード出現率やTF-IDFがポジティブに働いているときなら、キーワードの出現頻度や出現率が足りてないと、関連性が薄いと判断されてしまう。Googleが自然言語理解を深めてきたおかげで、この項目は内容の薄いコンテンツと書き変えたほうがよいかもしれない。明確なテーマなく書かれたコンテンツはいかなるキーワードにも関連付けられないのである。

タイトルタグ内のキーワード出現率

タイトルタグ内のキーワードスタッフィングもペナルティになる可能性があるようだ。理想的なタイトルタグの長さは30文字程度で、検索結果に表示された際、良い検索広告としての機能も果たす。控えめに言っても、同じキーワードを何回も同じタグの中で繰り返し使う意味があるとは思えない。

あまりに長いタイトルタグ

タイトルタグ内のキーワードスタッフィングもペナルティになる可能性があるようだ。理想的なタイトルタグの長さは30文字程度で、検索結果に表示された際、良い検索広告としての機能も果たす。控えめに言っても、同じキーワードを何回も同じタグの中で繰り返し使う意味があるとは思えない。

Hタグ内のキーワード出現率

H1やH2に代表されるようなHタグは、そこに記載されているキーワードに重めの比重をかけることができる。そう聞くと、このタグに出来る限りのキーワードを詰め込もうとしたり、できるだけHタグを長くしようとしたりする誘惑にかられるだろう。ただ、そんなことをしてもキーワードスタッフィングペナルティに引っかかるだけだ。

Hタグの過剰使用

原則として、もしSEOペナルティなんてものが本当に存在するのかどうかはっきりとした答えが欲しいのなら、プラスに働く内部SEO要因であげた項目を常識的な範囲を超えてためしてみるといい。一番簡単な方法はWebサイト全てをH1タグ内に設置してみることだろう。マット・カッツはH1に大量のテキストを挿入した際のヒントを動画で残してくれている。

URL内キーワードの繰り返し

URL内で複数回キーワードを繰り返した場合のペナルティは今のところ聞いたことはないが、それをしたからといってSEO的にプラスになるということも基本的にはない。実際URLの中に複数回キーワードを入れてみたが、何の意味もなかった。

やたら長いURL

マット・カッツによると、URLの最初の5単語程より後に記述されているキーワードに関しては、SEO的なプラスの要素は減っていくとのことだ。直接確証されているわけではないものの、Google上でこの現象が起こっているのを目にすることはできる。とはいえ、この問題に関しては扱われ方も多様で、BingはURL内のキーワードスタッフィングを完全にペナルティとして扱うことにしたと公表している。

ALTタグ内のキーワード出現率

通常ALTタグというものはページ上に表示されることがないものだから、ALTタグ内のキーワードスタッフィングというのは横行しがちだった。的確な表現の数単語なら全く問題ないどころかむしろ歓迎されるべきだが、それを超えるとペナルティの対象になりえる。

やたら長いALTタグ

通常ALTタグというものはページ上に表示されることがないものだから、ALTタグ内のキーワードスタッフィングというのは横行しがちだった。的確な表現の数単語なら全く問題ないどころかむしろ歓迎されるべきだが、それを超えるとペナルティの対象になりえる。

長い内部リンクアンカー

控えめに言っても内部リンクのアンカーテキストを長くすることによるプラスの効果など全く無く、大抵の場合マイナスになる可能性のほうが高い。長過ぎる内部アンカーテキストは、下手をするとキーワードスタッフィングペナルティを引き起こす可能性がある。

くどいほどの箇条書き

マット・カッツによれば、どんな書き方であれキーワードを箇条書きにしただけのコンテンツはキーワードスタッフィングとみなされる可能性があるとのことだ。例えば、事柄・単語・ことわざ・アイデア・コンセプト・キーワード・キーフレーズなどをやたらと箇条書きにするのはどう考えても普通ではない。やり過ぎるとペナルティの可能性もある。

著作権違反

Digital Millennium Copyright Act(DMCA)や米国外のこれに似た著作権規約に違反したコンテンツを載せていると色々なペナルティに引っかかる可能性がある。Googleは自動で出所不明もしくは無許可のコンテンツ流用を発見できるよう努力しているようだが、ユーザー自身がGoogleに違反コンテンツを通報し、手動対応を促す事もできる。

ドアウェイページ

検索エンジン上でランディングページとなることを狙って、ドアウェイページやゲートウェイページと呼ばれるユーザーにとって無価値なページを利用していると評価が下がる。例えば、同一商品のページをアメリカ中の全都市名で作ったりすると、Googleにスパムだと判定される。

画像内のテキスト

Googleは画像の分析能力を上げてきてはいるが、今のところリッチメディア内のコンテンツはGoogleに正しくクロールされていない。画像内にテキストを入れたからといって悪いことはなにもないのだが、そのテキストで評価されるチャンスは失われることになる。

動画内のテキスト

画像と同じく動画内のテキストもGoogleは正しくクロールできない。動画の内容を文字起こししたものを一緒に公開することで、検索されやすくすることができる。これはHTML5やFlash、SilverLightなどのリッチメディアの形式にかかわらず言えることである。

リッチメディア内のテキスト

画像と同じく動画内のテキストもGoogleは正しくクロールできない。動画の内容を文字起こししたものを一緒に公開することで、検索されやすくすることができる。これはHTML5やFlash、SilverLightなどのリッチメディアの形式にかかわらず言えることである。

薄いコンテンツ

トピックについて包括的に書かれた詳細なコンテンツというものが良いものとされてきたが、パンダ・アルゴリズムの導入によってオリジナリティの一切ないコンテンツは、Googleによって激しく罰せられるようになってしまった。

他ドメインとの重複コンテンツ

他サイトとコンテンツが重複していた場合、たとえそれが著作権を侵害しているか否か、あるいは出典の表示方法が正しくおこなわれているか否かにかかわらず、順位に著しい不利益を生じさせることがある。この順位ロジックは「コンテンツがWeb全体に対してもっとユニークで特別であれば優遇される」という理論と一致する。

自ドメイン内での重複コンテンツ

他ドメインとのコンテンツ重複と同様、コンテンツのどんな断片であれ、ページ内もしくはサイト内で重複が発生していると評価に影響を与える可能性がある。(ブログの)タグページが大量にインデックスされてしまっていたり、「www」有り無しが統一できてなかったり、「URLのパラメータ有り無し」が統一できてなかったりすると、この問題が発生する原因となる。

ペナルティを受けているサイトへのリンク

「Bad Neighbourhood」アルゴリズムとして導入された。マット・カッツの言葉を借りるなら、「スパムサイトやそういった類のサイトへのリンクが少なければ少ないほど、Googleからの信頼性は向上する」。どうしてもそういうサイトにリンクを貼らなければならないのなら、rel=nofollowを使用すべきだとGoogleは推奨している。再びマットの言葉を借りると「nofollowを使えばそういったサイトとの関係を断ち切る事ができる」。

noindexページ

もしページにnoindexタグを入れていたら、検索エンジンはそのページをインデックスしない。順位を付けたいページにこのタグが入っていないことを今一度確認しよう。逆に、Googleからのランディングページとしてふさわしくないページには入れたほうがユーザーエクスペリエンス的にとても良い。

内部リンクのnofollow

2通りのパターンがあるが、ひとつ目はrobotsタグにnofollowをつけている場合。この場合そのページ全てのリンクがnofollow扱いになる。ふたつ目は、個々のリンクにnofollowをつける場合。どちらの場合にせよ、nofollowが示すことは、「信用できないリンク先」「これ以上はクロールするな」「PageRankを渡すな」ということだ。マットいわく「絶対に自分のサイトにむけてnofollowはするな」。

アフィリエイトへのリンク

Googleは過去に「何も付加価値を与えないアフィリエイトサイト」に対して、正面切って対策をしたことがある。これはガイドラインにも記載されている。アフィリエイトリンクはrobots.txtでブロックしたディレクトリから301リダイレクト経由で行うというSEO病が蔓延しているようだが、そんなことをしてもGoogleはHTTPヘッダ情報を見ることはできる。何人ものアフィリエイトマーケターが、アフィリエイトリンクを貼り過ぎたことによりペナルティを受けたという科学的に信憑性の高いケーススタディを発表しているのでこの項目の信憑度を70%で設定させてもらった。

検索結果ページ

原則としてGoogleはユーザーにちゃんとコンテンツにランディングしてもらいたいと考えている。つまり、コンテンツへのリンクリストページや、たった今までいたのと同じような検索エンジンの検索結果ページ(SERP)とかではなくだ。もしもページが検索結果ページのようなものなら、ただ単リンクの多いだけのページとして分類され、良い順位がつかない傾向にある。検索結果だけでなく、ブログのタグページ、カテゴリページなども同様だ。

自動生成コンテンツ

ユーザーの検索クエリに合わせてコンテンツを自動生成している場合、「もちろんペナルティ対象になる」とGoogleとGoogleの作成したWebマスターガイドラインにより確認が取れている。幾つかの手法はガイドラインで明確な例として詳細に記載されている。自動生成のメタタグなどのように例外として認められている例もある。

フィッシング

もしサイトでフィッシング(例えば情報を盗もうとして、どこかのサイトのログインページをそっくりにコピーしているなど)をしているのでは、とGoogleに判断されかねないような問題があるなら、覚悟しておいたほうがいい。多くの場合、Googleは「違法な行動」や「ユーザーに危害を加える行動」とひとくくりにして説明しているが、このインタビューでマット・カッツはフィッシングフィルターについて詳しく解説している。

期限切れのコンテンツ

様々な方法を使って、コンテンツの期限(※訳注情報としての期限)を確かめる特許をGoogleは所有している。そのうちの1つの方法は単純にコンテンツの作成された古さを見るというものだ。この要因に関して不確かなことは、はたしてこれが適応されるのはすべてのクエリでのことか、あるいはQDFのようにGoogleが明らかにコンテンツ期限を定めた方がいいと判断したクエリに限られるのかわからないという点だ。

露骨なアダルトコンテンツ

Googleは18禁コンテンツをインデックスもするし検索結果として返しもするが、デフォルトで「オン」になっているセーフサーチフィルタでは出てこない。だから今一度、ちゃんと確認していないユーザージェネレイテッドのコンテンツや過去のコンテンツがうっかりセーフサーチにひっかかる一線を超えてしまっていないかの確認くらいはしておいたほうが良いだろう。

スパムなユーザージェネレイトコンテンツ

Googleはユーザージェネレイトコンテンツ部分だけにフォーカスした問題点をあぶり出し、そこに特化したペナルティを作り出している。これはSearchConsole上に警告として現れる数少ない事例の1つである。そのペナルティは通常、特定のページにのみ適応されるとのことだ。

分離していない外国語のコンテンツ

当たり前だが、ターゲットオーディエンスの使っている言語ではない言語でコンテンツを作成したら、ほとんどマイナス方面に内部要因ははたらいてしまう。適切に分離されていない外国語コンテンツはクローラーとユーザーどちらにとってもマイナスになるということをマット・カッツも認めている。

自動翻訳コンテンツ

Babelfish(※訳注日本で言うエキサイト翻訳)やGoogle翻訳を利用して、お手軽に「インターナショナル化」を図ろうとするのは、マット・カッツの言うところのWebマスターガイドラインに完全に違反する行為である。Googleがそういうことを言ったときは「評価が下がるのではなく、ペナルティ扱いにするからね。それもかなり重めの」という意味なので注意しておくように。Webマスタービデオでマットは自動翻訳を、自動生成コンテンツに分類すると言っていた。

CSSによる隠しコンテンツ

最もよく語られる内部要素ペナルティの一つが、ユーザーに見えないように故意に隠したテキストやリンクである。特に、Google上でのキーワード順位アップを狙ってやっていた場合にはかなり重めのペナルティが与えられる。ただ、タブであるとかツールチップであるとか、明確に理由がある場合はこの限りではない。

背景と同じ文字色

よくあるクローキングペナルティの例としてあげられるのが、特定のコンテンツを背景と同色にしてユーザーから見えにくくするというものである。Googleはページレイアウトアルゴリズムを用いて、ユーザーにはコンテンツがどのように見えているのかを分析することで、この問題に対処している。実験の結果、ほんの一握りのケースだが、未だにこれが原因でペナルティが来ることはある。

1ピクセルの画像リンク

昔はやった隠しリンクの手法だが、もちろんこの「小さい画像リンク」はGoogleによって隠しリンクとして認定されている。大抵の場合、縦横1pxの画像を利用するか、とんでもなく小さいフォントの文字リンクを使用する。こういう姑息な手段はかくも魅惑的に思えるが、確実にGoogleにバレるのでオススメはしない。

空のリンクアンカー

隠しテキストとはちょっと違うかもしれないが、空のアンカーテキストを利用した隠しリンクもクローキングペナルティの対象となる。これも危険かつ、かつて一世を風靡したスパム手法なので、うっかりそうなっているリンクがないか今一度サイトをチェックしよう。

太文字や斜体文字などを多用する

太文字で表示したテキストが、そうでない残りのテキストより評価される可能性が高いからと言って、サイト全体の文字を太文字表記にしたところで、サイトの評価上がるなんてことはない。このような行為は、Googleの定める「スパム行為」とみなされるだろう。

内部リンクエラー

壊れた内部リンクを放置しておくと、クローラービリティ的にもユーザーエクスペリエンス的にも全く良いことがないし、サイトの質が低いと自分で公言しているようなものだ。出来る限り修正することをおすすめする。

FrameとIframe

昔、検索エンジンはフレーム内のコンテンツをクロールすることが全くと言っていいほどできなかった。時が経ち、この問題はほぼほぼ解決できるようにはなってきたものの、未だにクローラーにとってフレームというのは厄介な代物のようだ。Googleはフレーム内のコンテンツもページに含めようとはしているようだが、その精度は100%と言うには程遠い。

動的コンテンツ

動的コンテンツはクローラーにとって理解したり正しく順位づけしたりするのが難しい代物だ。特にGoogleがアクセスしてくる可能性があるページでは、noindexを使ったりあまり動的コンテンツを使用したりしないほうが、結果としてユーザーエクスペリエンス的にも順位評価的にも良くなる可能性が高いというのが通説だ。

過剰な広告

ページ、特にファーストビュー部分に過剰な広告があると、ユーザーエクスペリエンスを著しく損ね、Googleによる対処の対象になる可能性がある。Googleは実際にユーザーが見るページのスクリーンショットを基準に算出しており、これはページレイアウト・アルゴリズムの一部や、トップヘヴィー・アルゴリズムに組み込まれていたりする。

ポップアップの使用

2010年、マット・カッツはこれに対してNOと答えているが ,Googleの ジョン・ミュラーは2014年にYESと答えている。ページレイアウト・アルゴリズムの仕組みと効果を考えた際に、筆者の私見としては、タイブレーク効果として考えると「YES」というものだ。

robots.txtのdisallow

ルート・ディレクトリにおいているrobots.txtに対象クローラーを「*」か「googlebot」にした状態でdisallowにしたら、クロールされなくなる。この命令はすでにGoogleが持っているインデックスを削除する命令ではないが、コンテンツ更新等のアップデートがなされなくなり、色々なプラス要因が反映されなくなってしまう。

メタまたはJavaScriptリダイレクト

古いペナルティの一種で、もうそんなに一般的ではなくなってきたが、Googleはmeta-refreshやJavaScriptの時間差リダイレクトを使わないように推奨している。ユーザーを混乱させ、離脱率を引き上げる原因になるし、クローキングとみなされる可能性があるためだ。代わりにサーバレベルでの301や302リダイレクトを使うようにしよう。

JavaScript内のテキスト

GoogleはJavaScriptのクローリングの機能改善に努めているようだが、JavaScriptによって吐き出されるコンテンツをクロールすることに関する問題は抱えているようだし、それ以上にGoogleにはそのコンテンツが「いつ」「誰に対して」吐き出されたものなのかを理解することはできない。もちろんJavaScriptで吐き出されたテキストがペナルティの原因になるといったことはないが、不必要なリスクということに変わりはないので、マイナス要因という枠に入れさせてもらった。

正しくないHTML/CSS

マット・カッツはこれをランキング要因にしていないと言っていた。しかし筆者が定期的に行っている実験の結果を見る限り、使っているようにしか見えないのだ。もちろんコードを完璧に書く必要はないだろうし、どちらかというと間接的な影響が大きいのだろう。ただコードが関係する要因は他にもあるので、間違ったコードが問題を引き起こすことは間違いないだろう。例えばタグ使用、ページレイアウト、クローキングなどの問題を引き起こす可能性は十分に備えているといっても過言ではない。

感染したサイト

多くのWebサイトオーナーは、最も不正アクセスの多かったWebサーバが別に何の書き換え被害にあっていないということに驚きを感じるだろう。しかし、そういったクラッカーというのは、セキュリティホールの修正が行われるまで、バレないように侵入し続け、できるだけ多くの情報を盗み見ようとするものである。そして最終的には、あなたになり変わってマルウェアの配布などを行う悪意ある行動として姿を表わすのである。そしてこのことをGoogleは非常に重く考えている。

ソフトエラーページ

Googleはソフト404やその他のソフトエラーページを使用しないように繰り返し推奨している。それらは本質的にはエラーページなのだが、ステータスコードは依然として200を返している。理論的に言って、そういったページをGoogleが正しく処理するのは難しいし、ユーザーの混乱も招く。Googleは(少なくとも)そういったページを低い品質とみなしているし、その数が多ければサイト全体のコンテンツ品質に影響もしかねない。

サーバーに関する要因リダイレクトされている内部リンク

ページランクはリダイレクトを挟むと少し効力を落とすように設計されている。そのため「www」有り無しや、トレイリングスラッシュの有り無しで、内部リンクをリダイレクトしてしまっているのなら、とてももったいないことになっている。

読み込みが遅い

読み込み速度が遅いサイトは、速いサイトより評価が低くなる。サーバ側、端末側両方の要因を検査できるツールは世の中に沢山あるから、ぜひとも利用すべきだ。また、読み込み速度の問題は、ユーザーの地理や端末、接続速度などの環境に依存するものだから、ターゲットユーザーの使用環境を念頭に入れてサイト構築すべきである。

環境の良くないIPアドレス

昔から続くWebホスティングによるSEO手法のデマに関してマット・カッツがすでにそんなことはないと否定はしているものの、未だにIPアドレスが何かしらのプラス要因を生むと信じて熱心に打ち込む輩がいる。そんな方々に言いたいのは、めったには無いケースだが、Googleはスパムが蔓延していると思しきプライベートネットワークであれ、パブリックであれ、対象範囲のIPアドレス全体にペナルティを課すことがあるということだ。

あまりに長い応答時間

Googleはアクセスできないサイトはインデックス(再インデックスを含む)できない。またこのロジックはサイトの不信頼性と低いユーザーエクスペリエンスという不名誉も決定づけてしまう。一時的なサイトダウンは順位に影響をあたえるようなものではないが、適切な応答時間でサイトを表示するのはとても大切だ。サイトダウンが一日二日なら問題ないが、それ以上になると問題を引き起こすだろう。

グローバル順位におけるccTLD

「.jp」や「.uk」に代表されるようなccTLDは、国を特定するためのドメイン拡張子である。グローバルドメインであるgTLDの逆の存在だ。ccTLDはインターナショナルSEOにおいて便利ではあるが(※訳注どこの国のサイトかひと目でわかるため)、同じ理由でその国の外のGoogleでの順位を狙った際にはいささか不利である。ただし、幾つかのccTLDにおいては一般的にもっと広い枠で使われているためGoogleに例外として認められてり、例えば「.co」のようなドメインはgccTLDとしてgTLDと同等の扱いをされる。

パークドメイン

パークドメインとは、まだ実際にサイトが載せられていない状態のドメインのことで、たいていの場合ドメインレジスタラ側で設定している自動生成の広告ページが表示されている。現在では他の多くのランキング基準の一つとして組み込まれているが、あまりうまくは働いていないようだ。Googleは大量のパークドメインをインデックスしていたこともあった。ただ、彼らの姿勢としてはやはりパークドメインをランキングに表示することはしたくないらしい。

ページのHTTPステータスコード 4XX/5XX

もしもWebサーバが200(OK)か301/302(リダイレクト)以外のステータスコードを頻繁に返しているようなら、それは適切なコンテンツを表示していないということを暗に示しているようなものである。ブラウザで見ることができても(※訳注キャッシュ等が残っていて)、実際にコンテンツはなくなってしまっている場合も有り得るので注意が必要だ。もし、本当にコンテンツがなくなっていて404を返していることが正しいのなら、それが間違いでないことをGoogleに正しく伝えるべきだ。

ドメイン全体でのエラーページの割合

ステータスコード4XXや5XXを返すページに着地する可能性が高いということは、品質の低いサイトだと評価されうる。そういったコードを返しているためにインデックスされない可能性があるので、リンク切れを起こしている発リンクがないかをチェックするのと同様、注意しておくに越したことはないであろう。

HTTP期限切れヘッダー

Webサーバでヘッダーの「期限」を設定しておけば、ブラウザのキャッシュをコントロールでき、パフォーマンスを向上させることができる。しかしながら、加減にも左右されるが、インデックスに問題を引き起こす可能性もある。つまり検索エンジンにコンテンツを長いこと更新しないと宣言してしまっている可能性があるということだ。

サイトマップchangefreq

XMLサイトマップのchangefreqで、どれだけ頻繁にコンテンツを更新しているのかを示すことができる。Googleは指示された以上に早く再クロールすることはないとする説もある。ただ、changefreqの指示通りGoogleがクロールしているのか否かの確証はなく、もしそうだとしても、SearchConsoleで設定できるクロール速度の設定が優先されているように感じる。


この記事が気に入ったらサポートをしてみませんか?