【流出アルゴ分析】Googleが認識する3つの日付データを徹底解剖【ページの鮮度をどう評価しているか】
どうもこんにちは、20代怠け者こと、上本敏雅(うえもととしまさ)です。
ぼく自身は2012年から、自分のブログ・Tipstour(チップスツアー)を中心にいくつかのメディアでWebライティングとSEOを12年ほど経験しており、近年は企業向けのSEOライティングやコンサルなども行っています。
このnoteでは改めて、ここ数年のSEOコンサル・ライティングディレクションを通じて得た知見を、備忘録的にまとめていこうと思っています。
普段、Twitterでは投資・資産運用などについて語っていることが多いですが、このnoteでは、現在の本業であるSEOやライティングなど、本業に近いお話をしていく予定です🦥
さて、SEO界隈ではもう知らない人は多いであろう、2024年5月に起きたGoogleアルゴリズム流出の件。
数多くのアルゴリズムが流出し、世間で衝撃を持って受け止められた割には、その後あまり詳細について分析された情報が出ていない、というのが現実じゃないでしょうか。
NavBoostの存在やドメインパワー、Chromeでのユーザー行動の分析など、表面的な情報はまとめられているものの、SEO担当者としては、「その情報をもとに何をすればいいのか」は、まだまだ明確化されていない認識です。
ということで、このnoteでは流出したGoogleアルゴリズムのデータから「Googleが認識している3つの日付データ」を分析してみました。
この記事を読むことで、実際にGoogleが記事のフレッシュネス(鮮度)をどのように判断しているのか、そのアルゴリズムの概念が理解できます。
ぼく自身も、SEO上のリライトの重要性を理解したうえで日々、記事を更新して鮮度を維持していますが、こうした「評価軸」を理解しているかどうかによって、リライトの効率性は大きく変わると思われます。
ということで、早速見ていきましょう。
💡Googleアルゴリズムが使っている3つの日付パラメータ
さて、流出したGoogleアルゴリズムのAPI資料によると、Google検索エンジンは、この3つのパラメータをWebページから取得しているとしています。
bylineDate (メタデータ内の日付)
syntacticDate (URLやタイトル内の日付)
semanticDate (ページ内部の日付)
それぞれの詳細は追って解説していくとして、基本的にはこの3つのパラメータを使い、Webページのメタデータやタイトル、本文から日付データを取得して、Webページのフレッシュネスを判定していることが、今回のリークで判明しました。
もともと近年のGoogleはWebページの情報の新しさを重視しているということはガイドラインや一般認識からも明らかでしたが、それが更に、具体的なパラメータの情報が出たことで判明した、ということになりますね。
1️⃣bylineDate (メタデータ内の日付)
1つめは、WebページのHTML内、メタデータの日付を取得している、というものです。
GoogleクローラーはアクセスしたWebページのMetaデータなどを取得して、記事の最終更新日時を探し、その日付をもとに記事のフレッシュネスを判定します。
出力形式は環境によって異なりますが、例えばWordPress環境だと、このような形でdatePublished(記事の投稿日時)とdateModified(記事の更新日時)が出力されるようになっており、このデータをGoogleクローラーは取得して、記事の日付を認識しています。
この記事のGoogle検索結果の日時がこちら。
投稿日(datePublished)ではなく、最終更新日(dateModified)の日付と一致していることがわかります。
基本的には、このbylineDateがGoogle検索結果の日付データとして利用されます。
2️⃣と3️⃣の日付データを参考にしつつも、最終的にはこのbylineDateをGoogleは最終的に採用するようです。
また、これは推測ですが、WordPressなどのCMSを使わず、更新日時などがMetaデータに記載されていないWebページ(手打ちのHTMLなど)の場合、GoogleがこのbylineDateに相当する日付データを正しく認識できていない可能性もあります。
それが結果的に、記事のフレッシュネス評価が低くなる要因となる可能性も考えられますね。
✅重要な更新を示す「lastSignificantUpdate」
もう1つ、気になるパラメータがありました。
直訳すると「最後の重要な更新」で、資料によると名前の通り、ページの内容が重要な更新を受けた日時を示すパラメータとのことです。
例えば、テキストの一部だけを更新したり、画像にALTを追加したり、URLにNoFollowを追加するだけのような軽微な変更の場合、
このlastSignificantUpdateの日付は更新されず、Google検索結果の日付欄も更新されない、ということが考えられます。
実は実際に自分のブログでも、リンクにNoFollowを追加するだけの軽微な更新を試してみた所、記事の更新日時は2024年7月になっているものの、Google検索結果では更新日時は古いままで、内容が反映されていない(古い状態)と判定されている実例がありました。
重要な更新、といいつつも、Googleアルゴリズム自体はその更新内容が重要なものなのかを判別する術を持たないため、おそらくは「記事内容が全体の何%ほど書き換わったか」などを評価軸としているのではないか、と予測します。
どれぐらいの割合を更新したら重要な更新だと認識されるのか、その割合についても公開されているわけではありません。
どれぐらいの変更割合で重要な更新だと判断されるのかは、もう少しテストをしてみないといけないところだな、とは思っていますが、あくまでこれまでの体感上、最低でも記事の10〜20%程度は変更しないと、更新日は反映されないように思います。
2️⃣syntacticDate (URLやタイトル内の日付)
2つめの日付データは、URLとタイトル内に含まれる日付をGoogleは取得している、というものです。
API資料によると「ドキュメントの構文日付 (例: ドキュメントの URL またはドキュメントのタイトルに明示的に記載されている日付)」と記載されています。
これは直感的にわかりやすいと思います。
日付を含めたURLや、日付を含めたタイトルの場合、その内容をGoogleは認識して、記事のフレッシュネスの参考にするということですね。
例)
http://****.com/2024/07/google-search-explain/
【2024年7月】Google検索エンジンの特徴を解説
おそらくは1️⃣のbylineDateが元の日付となり、その内容が正しいものかの判定の参考として、この2️⃣syntacticDateが利用されるのではないかと思われます。
逆に言えば、1️⃣と2️⃣が不一致である場合、フレッシュネスの評価が落ちるということも十分に考えられますね。
記事内での整合性も問われることになります。
✅検索結果のスニペットに表示するかどうかを決める「useAsBylineDate」
こちらにも気になるパラメータがあったので、少し取り上げておきます。
このパラメータは、Google検索結果の日付部分を表示するかどうかのフラグとして利用されるパラメータで、ここがTrueの場合は検索結果に日付が表示され、Falseの場合は検索結果に表示されないという動作をするもののようです。
皆さんもおそらくご存知の通り、Google検索結果にはWebページの日付が表示されているものとそうでないものがあります。
Googleは何らかのフラグによって、この日時の表示・非表示を判断しているのだと思われます。
この判断基準は資料には解説がありませんでしたが、以下のタイプのWebページでは、日時が表示されない場合が多いです。
ドメインのトップページ
コンテンツページ
基本的に更新が発生しないページ
逆に、更新が高頻度で発生するページ
とはいえ、「更新日時が表示されない=更新日時が重要でははない」というわけではなく、あくまでGoogle側の基準として日付を載せるかどうかだけで、実際にはそれぞれ各種の日時データはSEO評価に影響しているものと思われます。
3️⃣semanticDate (ページ内部の日付)
3つめは、Webページ内部の本文に記載されているデータも、Googleは認識・評価しているというものです。
資料には「文書の内容 (解析経由)、アンカー、および関連文書に基づいて文書の内容が推定される日付」と記載されています。
詳細は別資料に記載されているようで、この資料自体は今回のリーク資料には含まれていないため、どのような仕様なのかは残念ながら不明です。
とはいえこのパラメータの存在があることで、記事内部での日付への言及が、フレッシュネスの評価につながるということがわかりました。
例えば、以下のような内容を記事本文内に入れておくことで、Googleはそれぞれの箇所の情報の日付を認識する、ということです。
例)
「2024年5月、Google検索のアルゴリズムが漏洩しました」
「この記事の情報は2024年7月時点での最新情報をまとめています」
「能登半島地震は、2024年1月1日16時10分に、日本の石川県の能登半島地下16 kmで発生した内陸地殻内地震」
1️⃣と2️⃣と同様、3️⃣についても、Webページ内での整合性が求められるものと推測されます。
最終更新日やタイトルは2024年7月となっているのに、その中の本文で「2023年時点でのデータです」というような記載をしている場合、整合性が取れず、フレッシュネスとして評価が下がるかもしれない、ということですね。
ただ、闇雲に日付を入れないほうが良いという単純な話でもなく、内容によっては日付を添えておいたほうが情報として重要性が上がるデータなどについては、適宜正しい日付を掲載するのが良いのだろうと思われます。
例)
・2023年の日本のGDP
・2024年の日本のGDP
📝まとめ
以上、流出アルゴからわかった日付データの取り扱い方、でした。
bylineDate (メタデータ内の日付)
→おそらく最重要syntacticDate (URLやタイトル内の日付)
→メタデータとの整合性を合わせる必要ありsemanticDate (ページ内部の日付)
→これも整合性が重要 内容次第で古い日付でもOK?
Google自体は、Webページ内に書かれている情報そのものが本当に最新の情報であるかどうかを判別することは出来ません。
あくまでこれら3つの日付指定によって、その記事の内容が新しいかどうかを相対的に評価している、と考えるのが良さそうです。
これは日付に限らず、情報の真偽についてもGoogleアルゴリズムは判別できておらず、その他の様々な情報(EEATやドメインパワー、参考資料など)を使って、「より正しいであろう情報」を上位に表示しているだけに過ぎないのですね。
Webページのフレッシュネス自体はGoogle検索結果で重視される傾向にあるため、今回紹介した3つの日付を頻繁に最新化していき、Googleに鮮度の高い情報ですよ、とアピールすることが重要だと思われます。
今回の3つの日付パラメータから、実際にどのようにリライトをしていくのが効果的なのかについては、別記事にて近日中に案をまとめていみたいと思います。
もし、この記事が参考になったら、♡ボタンのクリックと、フォローをよろしくお願いいたします!
筆者、上本へのご相談やお問い合わせはこちらからどうぞ🦥
この記事が気に入ったらサポートをしてみませんか?