見出し画像

New York Times社のクラウドコンピューティングとHadoop活用事例

クラウドコンピューティングやHadoopの初期の活用事例として知られているものに、New York Times社の「TimeMachine」があります。この事例を、元情報であるDerek Gottfridのブログエントリを読み直しながら、簡単にまとめなおしておきます。

2005年にNew York Times社は、著作権保護期間の切れた記事を1851年の創刊時にまで遡って画像形式で提供する「TimeSelect」というサービスを開始しました[1]。2007年、同社のDerek Gottfridは、これらの記事のPDF化に取り組みます[2]。画像には文字認識をかけ、検索可能にし、メタ情報も整えたPDFに変換する作業です。

Derekにはいくつかの条件が整っていました。前年にAmazonが提供開始したクラウドサービスのS3(Simple Storage Service)を使い慣れており、EC2(Elastice Compute Cloud)で遊び始めたところでした。GoogleのMapReduceに関する論文を読んでおり、Hadoopを知っていました[3]。彼は次のアイデアを思いつきました。

まず4TBの画像データをAmazon S3にアップロードする。EC2インスタンス(仮想マシン)上でPDFへの変換を行う。ただしHadoopでそのコントロールを行い、並列に処理する。できあがったPDFはふたたびS3上に保存する。S3はそのままPDFを配信するWebサーバにすることもできる。

Derekはまず4台のEC2インスタンスを作成、起動し、Hadoopと自分の作成したスクリプトなどをセットアップして、2千件ほどの記事を処理させます。これがうまくいったので、次は100台のEC2インスタンスを使い、全記事の処理にあたります。処理対象件数は1,100万件で、生成されたデータは1.5TB。実は一回目に生成されたPDFではエラーが発生したので、二回全記事の処理を行い、それを含めて24時間以内で終了しました。費用はわずか240ドルでした[4]。

2008年には、New York Timesはサービスを「TimeMachine」に発展させます。このために、今度は40万5千件ずつの大きなTIFF画像と画像中の記事位置を示したXMLデータ、3,300万件のSGML形式の記事から、40万5千件ずつのフルサイズの画像とサムネイル画像とJavaScriptファイルが生成されました。今度は数百台のEC2インスタンスが処理に使われ、36時間以内にすべてを終えました[5]。

TimeMachineは、その後2014年に再び刷新されます。担当したEvan Sandhausらはここでも同じ手法を使いますが、この時にはAmazon Elastic MapReduceサービスが提供されていました。これはHadoopをサービスとして提供するもので、Evanらは自分たちでOSやHadoopをセットアップする必要はありませんでした。2008年のTimeMachineでは、画像上で記事を選択するとPDFに飛ぶ仕組みでしたが、この刷新によりWebブラウザ上で記事本文まで読めるようになりました[6]。

■出典・参考URL(※本文はここまでで、以下はリンクだけです。)

ここから先は

895字

¥ 100

期間限定 PayPay支払いすると抽選でお得に!

この記事が気に入ったらサポートをしてみませんか?