見出し画像

無理ゲーを解き続けるGoogle

Googleのアップデートで被弾するサイトが続出しており、Googleへの怨嗟を語る人が増え続けている印象がある。

私はGoogleとは全く関係ない人だけれど、泡沫エンジニアとしての視点からGoogleを擁護したい。

なぜ擁護するか?それは、Googleは無限に続く無理ゲーを解き続ける運命にある、と感じるからだ。

ページを評価するにはカネがかかる

Webページを評価するには、カネがかかる。あたり前のことだ。

Googleがインデックスを作成するには、サーバで何らかの計算処理をする必要がある。そのサーバを買うにも、維持するにも、カネがかかる。

3年ほど前だったか、Googleは「インターネット上には130兆ページのWebページがある」と発表した。

これは、おそらくGoogleの悲鳴だ。こんなにたくさん評価しきれない、だから検索順位が変でも許してくれ、というメッセージだ。私はそう受け取った。

1ページを0.00000024258秒で評価?

具体的に計算しよう。

130兆ページの評価を1年間で終えるためには、1ページあたりにかけられる時間は何秒か?

答えは、0.00000024258秒だ。
※(365日 * 24時間 * 60分 * 60秒) / 130兆ページ で算出。

当然、並列処理しているだろうが、仮に100万台のサーバを用意して並列処理していたとしても、1ページあたりにかけられる時間は 0.24258 だ。

1ページを評価するために必要な演算は多岐にわたる。私は詳しいことを知らないが、泡沫エンジニアの想像という前提で読み進めて頂きたい。

まず最初に形態素解析をする必要がある。文字列のどこからどこまでが一つの単語かを判断し、分ける処理だ。たぶん、普通にやったら、これだけでも1ページあたり0.2秒はかかってしまう。これは私の経験値だ。

形態素解析ライブラリで有名なものにMeCabNMeCabがある。普通のエンジニアが手軽に形態素解析しようとしたら、まず手にするであろうライブラリだ。

私はこれでWebページのテキストを形態素解析する処理を構築したことがある。どんなに調整しても、1ページあたり0.2秒はかかった。

検索エンジンとして機能させるには、当然ながら形態素解析だけでは意味がない。その後、それぞれの単語の重み付けをして、どのような単語とどのくらいの強さで結びついたページなのか、を、無数の単語ひとつひとつについて評価しなければならない。

スパマーと戦うためには、表示されたWebページを画像として処理する必要も、おそらくある。原始的なSEOスパムである、「バックグラウンド色と同一色でテキストを埋め込む」とか、「極小ピクセル数でテキストを表示する」というヤツに対処するためだ。

もちろん、htmlやCSSの解析だけでも上記2つに対する対処は可能だが、JavaScriptでのCSS書き換え等への対策も考えると、画像として認識の上で処理せざるを得ないだろう。テキスト解析だけでも0.2秒かかってしまうのに、画像での処理も加わったら、完全にお手上げだ。

Googleの人たちはものすごく頭が良いだろうから、私には全く考えが及ばないたぐいの、魔法のような手段で対処しているのだろうとは思う。Googleはお金もたくさん持っているから、サーバも、私の想像よりずっと多いのかもしれない。しかし、それにしたって限界というものがある。

Googleのサーバ台数(想像)

Google社の親会社であるAlphabetの売上は17.6兆円、利益は3.4兆円だ。

根拠薄弱ではあるが、これらの数値から類推して、Googleは1兆円ぶんのサーバを持っていると仮定してみよう。

サーバの値段を1台10万円と仮定すると、予算が1兆円の場合、サーバの台数はちょうど100万台になる。これは、冒頭の計算で出した「1ページあたり0.24258秒で評価」するための並列処理に必要なサーバの台数だ。

たった100万台では、充分な精度の検索結果を返すのは不可能だろう。

仮定に仮定を重ねているから、この計算は正確な数字とはとても言えない。ただ、出ている数字から素直に計算したらだいたいこうなる、とは言えるのではないだろうか。

スパムページ生産のコストと、Googleがページを評価するコスト

スパムページを生産するためのコストはとても小さい。私の低い技術でも、1ページあたり0.000001円くらいのコストで、ワードサラダ的なスパムページを作ることができる。

まともにやったら、Googleがページを評価するコストは、これを大きく上回るだろう。たとえば、サーバ1台あたりの消費電力を65Wだと仮定すると、そのサーバを0.24258秒稼働させるために必要な電力料金は、アメリカの安い料金を考慮しても0.0000526円くらいだ。スパムページを作成するコストの50倍くらい、ということになる。Googleとしては、そんな計算はしていられないだろう。

だから、Googleはドメイン丸ごとBANしたりもする。ページを評価する立場としては当然のことだ。それをやらなければ、サーバの調達コストと維持運用コストで、Googleは倒産してしまうだろう。

スパマーは増殖し続け、スパムページは無限に生産される。無理ゲーだ。

法対応コスト・リスク

法対応としてのコストやリスクもある。たとえば、Googleの検索結果に詐欺サイトが出てきたら、Googleを信用する人は居なくなる。Google自体も罪に問われることもある。だから、Googleはそれらを排除しなければならない。

しかし、それぞれのサイトが詐欺サイトかどうかをいちいち捜査などしていられない。そもそもGoogleにはそんな権限もない。そんな不確かな状況で、Googleはインデックスを作成し続けている。ここにも、無理ゲー感がある。

まとめ

Googleは、人知れずスパマーと戦い、まあまあ便利な検索結果を提供し続けている。その一方で、ユーザやサイト運営者から無茶な要求を突きつけられ、叩かれている。

カネが絡む話だし、カネが絡むということは生活がかかっているから、みんな熱くなるということはわかる。しかし、現状の検索結果を改善するロジックを組める人は、おそらくこの世に存在しないだろう。

少なくとも私は、現状のGoogleを超える検索エンジンなど作れない。1億年あっても作れないだろう。私も不満はあるけれど、文句を言う気持ちにはならない。

Googleの検索結果の精度が低いとしたら、その責任は、本質的にはスパマーや詐欺師にある。Googleの責任は大きくない。

Googleが嫌ならBingだってある。でもみんなGoogleを使い続けている。

Googleは、獅子奮迅の活躍をし続けている。Googleの向こうを見てほしい、と切に願う。そこには、Googleが打ち倒したスパマーの骸の山があるのだ。

もしサポート頂けたなら、そのお金は、私が全力で生きるために使います。