ruzgar

インターネット企業でデータプラットフォームを育ててつつ、数年間マネージャーもやっています。 趣味でLLMや画像生成AIも触っています。興味のある技術やトピックだけ書いていきます。

ruzgar

インターネット企業でデータプラットフォームを育ててつつ、数年間マネージャーもやっています。 趣味でLLMや画像生成AIも触っています。興味のある技術やトピックだけ書いていきます。

最近の記事

Apache Parquet Soft Dive

 Apache Parquetは、ビッグデータ処理や分析において重要な役割を果たすオープンソースの列指向データファイルフォーマットです。効率的なデータ格納と高性能な圧縮・エンコード方式を提供することにより、特に大規模で複雑なデータセットを扱うアプリケーション、特にOALP ワークフローに最適です。また、Parquetは多くのプログラミング言語や分析ツールでサポートされており、柔軟性と拡張性を備えた強力なデータフォーマットとして広く利用されています。 Apache Parqu

    • データエンジニアが知っておくべきDelta Lakeのしくみ

      データ管理の課題とDelta Lakeの登場  クラウドオブジェクトストレージ(例:Amazon S3、Google Cloud Storage)は、HDFSに代わるデータレイクの実装として広く利用されているように思います。これらのストレージは、無制限のスケール、従量課金制、耐久性、信頼性といった利点を提供しますが、ACIDトランザクションや高性能を実現することが難しいという課題がありました。例えば、一貫性の保証が限定的であり、部分的な更新が可視化されるリスクがありました。

      • モダンデータプラットフォーム:複雑化する現代の課題

        データプラットフォームの進化と複雑化 現代のデータプラットフォームは、その進化と共に、より高度で複雑な要求を満たすために進化してきました。今日は拙いながらも、OLTPとOLAPの基礎から始まり、現代におけるデータプラットフォームの課題と将来展望について、整理してみたいと思います。 OLTPとOLAPの登場背景 OLTPシステムの特徴 オンライン・トランザクション処理(OLTP)は、銀行システムのように正確な単一操作が重要な場合に最適です。例えば、リアルタイムでの資金移動

        • Spark 4.0では何が変わるのか? (後編)

          前回の続きの続きです。 前編はこちら 中編はこちら 後編では、以下の内容を紹介します。 Python UDTFの改善spark 3.5から導入された機能として、python UDTF (User Defined Table Functions) があります。入力として、0個の以上の引数を受け取ります。 出力結果として、テーブルを返すことができます。 UDTFは、pythoh classとして実装する必要がありますが、利用する際には、DataFrame APIから呼びさすこ

          優秀なAIとAIを信頼しすぎる人間の世界

           ChatGPTを始めとする大規模言語モデルを使ったAIサービス(以後、AI)は、非常に便利です。今や仕事をする上では、なくてはならないツールであり、生産性向上にも大きく貢献しています。同時に、正しく使わないと、自身の能力を低下させ、堕落させる危険性のあるツールであるという思いが沸いてきます。  これはAIが優秀で人間が無能という話ではなく、AIの生成物を信じすぎる人間と、AIの生成物を正しくレビューできる人間の二極化が進み、前者の方が明らかに増えるだろうという話です。AIを

          優秀なAIとAIを信頼しすぎる人間の世界

          Spark 4.0では何が変わるのか? (中編)

          前回の前編の続きです。 Spark 4.0 previewをもとに、spark 4系では何が変わるのか整理したいと思います。 今回は、以下の内容について紹介していきます。Structured Streaming周りの内容が中心です。 Streaming State Data SourceStructured Streamingの状態データ(State Data)に対する読み取り機能を提供します。なお、書き込み追加機能については、今後のロードマップに含まれています。この辺

          Spark 4.0では何が変わるのか? (中編)

          Spark 4.0では何が変わるのか? (前編)

          Spark 4系のpreview release2024/06/03 に spark 4.0 preview releaseがありました。 正式リリースの時期はまだわかりませんが、spark 3系と4系の何が違うのか、全然理解していないのでこの機会に整理したいと思います。 ちなみにspark 3系の時は、約7ヵ月後に正式releaseでした。 preview release - v1 : November 6, 2019 preview release - v2 : D

          Spark 4.0では何が変わるのか? (前編)