#32 bingと俺の戦いの記録 【ぴよぴよコーダーの開発日記】

「bing」とは、Microsoftが提供する検索エンジンである。普通に生きていれば、bingと関わることなんてなかったのかも知れない。だが奴は、一癖も二癖もあるアルゴリズムで、Webページをクローリングしていた。

さらに、その性質上、Outlookというメーラーのリンクプレビュー機能はbingの検索結果と連動するものであった。

Case1: meta descriptionを読んでいない。検索結果に、どうもmeta descriptionが反映されていないようだった。ページ内で情報の優先度が低い注釈文のほうが、表示されてしまっていた。

しかも、display:noneしてある昔の文章まで表示されているページもあった。

私はbingの気持ちになって考えた。これらのケースに共通するパターンは何なのか。答えは単純だ。表示されている文は、このページの中で、一番長い文字列を有したパラグラフだった。それに対し、meta descriptionは10文字程度。

試しにdescriptionを230文字以上で記載してみた。ビンゴである。どうやらbingは短いdescriptionは、descriptionとして認めないという一見、傲慢に見えるアルゴリズムをもっているようだった。(descriptionを変更しても、即時反映はされません。もう一度、クローラーが巡回するまで数日かかって反映されます。)

Case2: 一部のpdfの検索結果が文字化けする。pdfのURLで検索する奇特な人間はあまりいないのかもしれないが、Outlookにpdfへのリンクを貼る人は少なくないだろう。その際にリンクプレビューが文字化けしてしまうのだ。

私は、再びbingの気持ちになってみた。該当のPDFとほかのPDFとの違いは何か。どうやら、文字を画像として挿入しているPDFは、文字をうまく変換できず文字化けを起こしているようだった。文字化けを避けたいときは、面倒でもキャプチャを画像挿入ではなく、きちんと文字を入力してからPDF化することをおすすめしたい。

以上が、bingと私との戦いの記録である。

bingの検索結果に悩んでいる諸君の苦労が少しでも報われることを願っている。

参考:bing

この記事が気に入ったらサポートをしてみませんか?