Tsurugi 1.0.0-BETA3リリース
リリースノートはこちら。
https://github.com/project-tsurugi/tsurugidb/discussions/33
今回のリリースは、機能的にはApache Arrowの本格的なサポートと、バグ回収になります。
下記のようにSoftware Designの特集記事に合わせるために、Arrowサポートを優先してリリースし、可能な限りバグに対応した、という形になっています。このため、一部パフォーマンス向上策については次回のリリース(β4)に回す判断をしています。
◆Apache Arrow
そもそもArrowは、β2以前でもTsurugiの実行環境にインストールする必要がありましたが、これはTsubakuroが提供するParquetファイルのロード・ダンプAPI向けにのみ提供しているものになります。
β3では新たにデータダンプ用のCLIツール tgdump が追加され、tgdumpでArrow形式のファイル、およびParquet形式のファイルダンプ処理が可能になっています。
なお、tgdumpが提供するArrow形式への対応のため、Tsurugiの実行環境で要求するApache Arrowのバージョンが 9.0.0 から 14.0.1 に変更されています。
Arrow形式のファイルの対応により、PGStromなどのArrow形式に対応した実行環境へデータをロードすることができます。
なお、TsurugiではArrowファイルをロードする機能はβでは提供していません。今後のバージョンで対応する予定です。
PGStromとの連携は詳しくは『 Software Designの2024/3月号 』のTsurugi特集に掲載されているので、そちらをご覧ください。
今回、PGStromの開発元のヘテロDB社と連携しています。
https://gihyo.jp/magazine/SD/archive/2024/202403
現在のTsurugiの開発はwrite性能の向上(バッチ処理や単発のinsert/update/upsert処理)に力をいれていて、readに関しては“ほどほどに+おいおいやっていく”いうスタンスです。これにはreadについては、多数のRDBや他の仕組みがあるので、屋上屋を架すことは避け、logシップを含めた連携機能の強化により、OLAP機能に強いところと組む、という現時点でのTsurugiの開発方針もあります。
今回はGPUでのクエリー処理に爆速であるPGStromと連携しています。スター・スキーマのような処理は、Tsurugiで実行するよりも、連携してPGStromで処理した方が圧倒的に有利でしょう。
また、AI全盛期の現状のインフラ環境では100コアマシーンには大抵の場合はGPUオプションがあります。このような環境をうまく利用することで、トータルでよりよいパフォーマンスを得ることが可能になるでしょう。
TsurugiからのGPU・AI処理連携については、可能であれば今後、プラットフォームや具体的アプリケーションとして検討していく予定です。
劔"Tsurugi"は現在オープンソースで公開中!
▽次世代RDB 劔"Tsurugi"の詳細はコチラ
https://www.tsurugidb.com/
この記事が気に入ったらサポートをしてみませんか?