データストリームを「写経」した
お疲れ様です。スキマ時間を使って今日も「写経」です。今回のお代は遅延処理です。処理するデータの量がとても大きい(メモリに乗らない)とか、延々と流れてくるデータを扱う場合です。Pythonだとreturnの代わりにyieldを使うみたいです。
関数を書いて、次の関数の中でそれを使うので数珠つなぎみたいな感じです。シェルのパイプと似てますが、次の処理を開始するタイミングが少し異なります。
シェルのパイプはコマンドによります。sedやgrepなどは1行づつ処理して、次のコマンドに出力します。sortなどは全部の処理が終わるまでoutputは止まります。今回のプログラムは5000個の単語を処理する毎に、次の出力を渡しています。
次回からは並行処理です。4章をかけてビッグデータでよく聞いたHadoopの仕組みまで行くみたいです。楽しみですね!それではまた。
無料のプログラミングクラブCoderDojoを運営するにあたり寄付を受け付けています。お金は会場費・Wifiの費用・教科書に使用します。