Web Almanac 2024 から読み解く SEO と AI のこれから
株式会社 IVRy Software Engineer のボルドーです。
1年はあっという間ですね。早いもので今年も Web Almanac 2024 のレポートが続々と公開されています。
今回は SEO ✕ AI という観点で Web Almanac 2024 レポートの内 SEO と Structured data の章についてまとめてみました。
私はどちらもど真ん中というわけではありませんが、AI に注力している会社でフロントエンド(Web サイト開発)を担当する者として SEO も AI も密接に関わりがあります。できるだけ平易な言葉で紹介するのでぜひ最後までお付き合いください。
Web Almanac 2024 とは
Webコミュニティの専門知識と The HTTP Archive のデータやトレンドを組み合わせた包括的なレポートです。
2019年から毎年公開されているのですが、2023年はなかった(※1)ので Web Almanac 2024 は 2年ぶりのレポートとなります。
レポートの具体例紹介
どのようなことが書かれているのか具体例を挙げると例えば Part II Chapter 11 Performance では Web のパフォーマンスに関する統計レポートとして以下のようなことが紹介されています。
レポートによると Web パフォーマンスの様々な側面を測定するために設計されたユーザー中心の指標(CWV: Core Web Vitals)の内 FID (First Input Delay) を より実態に沿った INP ( Interaction to Next Paint) へと置き換えたことで Good と評価されるサイトの割合が増えたことや、FCP (First Contentful Paint) がデスクトップ環境、モバイル環境ともに向上していることなど細かく分析されています。
年ごとに月が異なることへの言及はありませんでしたが全体としてサーバーサイドの改善よりもクライアントサイドのレンダリング改善が効いているのではと推測されていました。
冒頭でも触れたようにこのレポートは The HTTP Archive のデータに基づいて作成されています。
様々なデータを見ることができて興味深いです。例えば Beta 版の Tech Report Comparison では技術毎の CWV 比較を見ることができます。
IVRy の改善話
ちなみに IVRy は今年一年で社員が大幅に増えたこともあり、複数の機能開発を続けながらもパフォーマンスと真正面から向き合えるようになってきました。
先日 macchiitaka さんが公開した記事でも紹介されているように日々改善しています。(いつもありがとうございます!!大感謝)
パフォーマンスの改善は僅かながら CO2 排出量の削減という点で持続可能性にも寄与します。やっていきです。
Web Almanac 2024 SEO
ここからが本題です。
12月3日に公開されたばかりの Part II Chapter 9 SEO を見てみます。
Web ページを検索上位に表示するための工夫として SEO(Search Engine Optimization)があります。
クローラーとインデックス
このレポートの中で「世の中の Webサイトがどのようにクローラーの対策をしているか、クローラーがどの程度インデックスを作成しているか」が紹介されていました。
抜粋すると、
世の中の Web サイトは robots.txt への準拠が少し進んだ
2022年9月に robots.txt が RFC9309 として正式に決まったものの、既にデファクトスタンダードだったため robots.txt を設置している(ステータスコード 200 が返る)割合はモバイル環境で 2022年 82.4% から 2024年 83.9% とわずかな上昇に留まった
AI クローラー向けのルールを指定するサイトが増えた
(2023年のレポートがないことが悔やまれます…
さらに、今年 Google が独占禁止法訴訟の中で開示したデータからインデックスは 4000億件ほどしかないことが判明したこと、Bing は日々 700億件の新しいページをクローリングしていることなども紹介されておりとても興味深かったです。
それぞれ Google と Bing の事例のため自明ではないものの、総量に対してインデックスが作成されるのは一握りだということが伺えます。
生成AI による大量のコンテンツ
先日弊社のコンテンツマーケティングを担当している アキラ さんが公開した以下の記事で考察しているように、生成AI の普及に伴い大量のデジタルコンテンツで溢れています。文章の自然さが向上しているため見分けがつきづらくなっているものの、事実に基づかない情報を生成してしまうハルシネーションが問題となっているようです。
現状、クローラーはこのような記事の評価を正しく行うことができないという課題を抱えています。
そこで登場するのが構造化データ(Structured data)です。
SEO の章でも紹介されていますが、こちらは自身の Web ページをリッチリザルトとして表示させるための話題となっています。世の中で利用されている手法の統計を見ることができるため気になる方は見てみてください。
今回は Part I Chapter 4 に Structured data という章があるのでそちらを見ていきます。
Web Almanac 2024 Structured data
クローラーが記事(Web ページ)の理解を深めるために構造化データというものがあります。
用途は様々ありますが、今年はやはり AI 文脈にフォーカスが当たっており以下のように整理されていました。
事実の検証(Fact validation)
ハルシネーション対策、内容の理解、ユーザー体験の向上など
検索理解の強化(Enhanced search understanding)
曖昧な検索の正確な解釈
トレーニング データ(Training data)
質の高い学習データとしての用途
セマンティック検索エンジン
質の高い構造化データから学習ができると、検索において 単純なキーワード一致ではなく、ユーザーの意図を汲んだ関連性の高い情報を探す セマンティック検索の精度が向上します。
レポート内で例として以下のサービスが挙げられています。
Google AI Overview
Perplexity.ai
Microsoft Bing Chat
Meta AI
SearchGPT (and ChatGPT
You.com
Google AI Overview と Perplexity.ai は前述したアキラさんの記事でも解説されています。
それでは具体的にどんな構造化データがあればいいのかというと、例えば音声や動画などのテキストや画像以外の情報がそれに当たります。
従来であればわからなかった非構造化データを構造化データとして提供することで AI がよりコンテキストに富んだ応答ができるようになります。
セマンティックSEO
これまで見てきたように、クローラーが多様化し、AI を始めとした様々な用途で Web ページの情報を欲している(が、ハルシネーションは防ぎたい)現在では SEO に求められることも多様化してきています。レポート内ではこれを マルチプラットフォームの可視性(Multi-platform visibility )と表現していました。
セマンティック検索エンジンに対応した SEO を実装することで、キーワード以外にもトピックに基づいてコンテンツクラスターの作成が可能となり、音声検索アシスタントを含む様々な検索プラットフォームでコンテンツがより見つけやすく、文脈的に関連性が高くなります。その結果、AI 主導の将来を見据えたコンテンツの基盤を築くことに繋がるだろうと締めくくられていました。
まとめ
以上から、AI 時代の SEO において今後はマルチプラットフォームを見越して構造化データを充実させながら評価を上げていくことが重要になってくるのではないかと考えます。
もちろん従来の指標も大事なのでフロントエンドエンジニアとして携わる私自身もパフォーマンス等意識しつつ構造化データの理解を深めていきたいと思います。
みなさんも Web Almanac 2024 レポートを読んで 2年間のトレンドを総おさらいして良い年末をお過ごしください。
We are hiring!!
IVRy ではエンジニア、マーケターを始め、幅広い職種でメンバーを募集中です。少しでも興味を持っていただけた場合ぜひお気軽にご連絡ください。
※1: 2023年版が休止された理由はこちらにありました。育休だったんですね。