【次世代高速RDB】劔"Tsurugi"におけるバッチ処理（後編）

2023年10月2日 10:39

前編はコチラ。

前回は、Tsurugiの最大の特長の一つであるバッチ処理について、原価計算の実際のバッチ処理のベンチマークを参照しました。
結果としては、バッチ処理はほぼ劣化がなく、オンライン処理については105-120%に収まっています。

今回は「なぜそのようなことが可能か」ということを、できるだけ簡単に説明します。

なぜ、バッチ処理とオンライン処理が整合性をとって、同時実行することが可能なのか

従来のRDBであれば、通常はバッチ処理の対象に明示・黙示でlockをとり、上書きができないように制御してから、バッチ処理を行います。そのあとでlockの開放を行い、待ちになっているオンライン処理を行います。

結果として順序実行になり、オンライン処理側から見ると「DBが黙っているように見える」ということになります。現実の運用としては、オンライン処理を止めるか制限をかけ、バッチ処理を隙間に流すが、またはオンライン処理が走らない夜間に重たいバッチ処理を行う、ということになります。

今回はなぜ、Tsurugiが従来のRDBと異なり「バッチ処理とオンライン処理が整合性をとって、同時実行することが可能なのか？」という仕組みを説明します。

端的に言ってしまえば、この差は利用している技術の違いです。
従来のRDBはlock制御とsingle versionによる並行性制御ですが、これに対してTsurugiはtimestampベースでのMVCCになります。

MVCC

従来のRDBは、CPU・コアは少な目、かつメモリが貴重、というアーキテクチャを前提にした技術です。データは当然フットプリントが小さいほど有利なので、レコードの管理はsingle versionになります。

対してTsurugiは、メニーコア・メモリーベースの現代的な環境を前提に、MVCCを採用しています。

MVCCはMulti Version Concurrency Controlの略で、複数のversioningを利用し、トランザクションの一貫性＝serializabilityを保ちながら、トランザクションの並行性制御の許容度を高め、スループットを上げる技術です。一つのレコードに対して複数のversionを並行利用することができるため、単一のデータに対して、同時に複数の書き込み・読み込みを行うことできます。

複数のversionを同時に扱うので、CPU/コア数は多いほど有利ですし、またデータサイズを上がるためメモリも大容量である方がパフォーマンスは上がります。

Timestampベース

従来のRDBは、ベースがsingle versionであるため、レコードの管理には排他制御を行う必要があります。通常、排他制御には簡易かつ動作も軽量に収めることができるlockベースでの手法を利用しています。

対して、Tsurugiは複数のversionを同時に扱うため、特段、排他制御の仕組みを利用するはありません。むしろ、逆にlockの待ち合わせの時間コストの方が高くつきます。一般にMVCCであれば、排他制御のlockよりは、各トランザクションのtimestampを利用して、同時実行時の論理的整合性を計算するという手法の方が有利です。Tsurugiも同様の手法を利用しています。

実際に前述のバッチ処理の例で見てみましょう

単純化するために、木構造を単純なものにして、更新処理を二つに絞ってみます。

▽製品Aが原料Bを利用するユースケース
・利用数は品目構成マスタに登録（利用数を1→2にオンラインで変更）
・Bの原価は原価マスタに登録（原価を100→200にオンラインで変更）
・Aの製造原価をマスタから結合処理をして集計する（バッチ）

◆一般的なsingle versionの場合

製造原価を計算中は、各レコードのversion 0を利用し、製品Aのマスタから、Bの使用量を取得し、またBでの原価を取得した上で、製造原価を計算します。

この間、各マスタはロックされ更新処理は待たされます。version1に書き込めるのはバッチ1の終了後です。仮に、更新後の各マスタを使って、再び製造原価を計算する場合（version2）は、バッチ1終了→オンライン処理終了→バッチの再投入、という順序投入になります。

Tsurugiの場合は、マスタの状態を同時に複数持てるため、製造原価を計算中も、各マスタを更新処理できます。

バッチ1が各レコードのversion 0を利用し製造原価を計算している最中に、各マスタへの書き込みを行い、version1を生成します。また、再び製造原価を計算する場合（version2）は、バッチ1終了を待つ必要はありません。

各マスタが更新され次第、新しいversionを利用して計算を開始することができます。各versionの読み込み・書き込みの辻褄合わせはTsurugi側で行います。（たとえば、必ずversion0の後ろにversion1が追記されるような保証等）

上記のような仕組み・手法を利用することで、バッチ処理とオンライン処理の同時処理を可能にしています。

※※※お知らせ※※※

次世代高速RDB 劔"Tsurugi" のオープンソース版のリリース日が、
2023年10月5日に決定しました！

また、日経BP社より発売される劔"Tsurugi" 解説本の発売日も10月5日に決定しました！

600Pにわたり、劔"Tsurugi"の利用法、バッチ処理の実際から始まり、
劔"Tsurugi"のインターフェースのすべて、内部構造や実装アルゴリズムの詳細まで解説しています。

また、東京、札幌、福岡で、OSS版リリース記念イベントの開催も決定しました！

詳しくは、劔"Tsurugi"コミュニティサイトをご覧ください。