ヤクにもタタない話 #190319

とりとめのない知っててもショウモナイ話とか、くだらない話を残していこうと思う。主に自分への備忘録。

reCAPTCHAの名前の由来

「キミ、ロボットじゃないの?」
というBOT対策のこのプログラムは、表示された画像に対して人間の目で見た結果を入力するモノということはご存知の通りだろう。
reCAPTCHAがあることでBOTによる無駄な問い合わせを減らせることもあり、Webサイトのゴール指標(KPI)なんかを測定するためには欠かせないとあって使用しているサイトも多いと思う。
ちなみにCAPTCHA : Completely Automated Public Turing test to tell Computers and Humans Apart(人間とマシンを判別するチューリングテスト)の意味。

今まで脳死していたボクは、利用する立場のとき「このreCAPTHCAというのは面倒くさいな」という思いでしかみていなかった。
だからWikipedia自体もみたことがなかったが、ある時Tumblrでこれに関する記事がでていた。

reCAPTCHA(リキャプチャ)とは、ウェブサイトの制限エリアへのアクセスを試みるボットからサイトを防御するためCAPTCHAを利用するのと同時に、そのCAPTCHAに対する返答を紙の本のデジタル化に活かすシステムである。

reCAPTCHAは、OCRソフトウェアが読み取れなかった文字を画像として出力し、reCAPTCHAのデータを受信する各購読サイトへ向けてそれらを割り振る。購読サイトは、書籍デジタル化プロジェクトとは概ね無関係なサイトが多いが、これらの文字を含む画像を人間に差し出して、通常通りの認証手順の一部としてCAPTCHAの文字列を解読させる。そしてreCAPTCHAサービスは解答されたデータをデジタル化プロジェクトへ送信する。

まとめるとOCRがエラーとして吐き出した画像を人間に読ませて、

OCR「これなんやねん」
人間「(reCAPTHCHA表示)これあれやな○○○や」
OCR「サンキューヒューマン」

というのを無意識下で作業させている。
人間が入力したデータを統合し、そのビットパターンをまたOCRはパターンライブラリに取り込むことでOCR制度を向上させるのだろう。
そこで納得したのが、「あぁ、だからre(再)CAPTCHA(獲得)なのか」ということだ。

※獲得の本来のスペルはcaptureだが発音で単語を作ったのかと思う。(そうでないならばCAPTCHAの前にreをつける必要が不明になるため)

このシステムが面白いのは、人間側はOCR制度向上に協力していることを全く認知しないことだと思う。
「BOTじゃないこと証明してくれなー」という問だから入力を行う。
これが「OCR制度向上も兼ねて、次の文字列を入力してください」といわれたら「ReCAPTCHAは無償で労働力を搾取しようとしている」とかいわれていただろうな。

上手く本来やりたいことと、ついでにやりたいことが合致して世界をきれいに動かしたシステムの良事例だと思う。
こういうの作りたいよね。

この記事が気に入ったらサポートをしてみませんか?