FireDucks

FireDucks開発チーム https://fireducks-dev.github…

FireDucks

FireDucks開発チーム https://fireducks-dev.github.io/ja/

最近の記事

pandasを用いた大規模データの前処理をfireducksに置き換えてみる

本記事はFireDucksユーザー記事シリーズの第10弾です.本記事はYoshiyuki Kofuji様に執筆して頂きました はじめにpandasを用いた大規模データの前処理を、高速化性能が高いAPI互換ソフトウェアであるFireDucksに置き換えて高速化性能を検証します。 検証は、時系列データセットの数値データの移動平均を算出する処理について、複数の実装を行い、各々の実装について高速化性能を測定する形で行います。 1.移動平均算出処理利用データセット 時系列データと

    • 生成AIとデータフレーム高速化技術を組み合わせたら、データ分析が爆楽になった話

      本記事はFireDucksユーザー記事シリーズの第9弾です.本記事は黒柳茂様に執筆して頂きました はじめに生成AIによってあらゆるタスクを人間の代わりにやってくれるようになりました。特にコーディングのような領域は生成AIの得意分野の一つでして、少なくとも私よりかは遥かに優秀です(もう追いつけません)。 データ分析もコーディングが重要です。データを読み込んだり、EDA(探索的分析)、データクレンジング、機械学習モデル構築、可視化などなどデータを扱う主な道具はコーディングです

      • Pandasを高速化方法比較

        本記事はFireDucksユーザー記事シリーズの第8弾です.本記事はアリス様に執筆して頂きました. Pandasは非常に強力なデータ処理のツールであり、いくつかの便利なデータ操作機能を提供します。 ただし、Pandasはパフォーマンスのため特化のものではありません。中小規模のデータセットにはokですが、大規模なデータセットを扱う場合にはパフォーマンスの問題が発生する可能性があります。したがって、Pandasを高速化するための方法は数多く出ました。 今回の記事では、Pand

        • どれくらいスピードアップしたのか

          本記事はFireDucksユーザー記事シリーズの第7弾です.本記事はBell様に執筆して頂きました はじめに本記事では、Import を書き換えるだけで高速化できる、Pandas 互換のライブラリ FireDucks について、過去の検証を参考にして、速度とメモリ使用量についてどれくらい改善しているのかを検証してみたいと思います。なお、上記記事にあるモデルの訓練の検証については実施しておりません。 環境下記のような環境で実行しました。 ubuntu-22.04.3 CP

        pandasを用いた大規模データの前処理をfireducksに置き換えてみる

          FireDucks と Polarsを比較してみた

          本記事はFireDucksユーザー記事シリーズの第6弾です.本記事はBell様に執筆して頂きました はじめにとある企業でデータサイエンティストをやっています。今回はデータサイエンスでよく使うpandasを高速化するという、FireDucksを触ってみました。通常のpandasと、polarsとの比較をいくつかの処理でやってみました。 FireDucks とはFireDucksとは、pandasを高速化するためのライブラリで、NECさんが提供しています。import 文を少

          FireDucks と Polarsを比較してみた

          FireDucks性能評価

          本記事はFireDucksユーザー記事シリーズの第5弾です.本記事はYoshiyuki Kofuji様に執筆して頂きました はじめにPythonでデータ収集・加工処理に欠かせないpandasのAPI互換ソフトウェアであるFireDucksについて、 動作環境やデータ量を変化させたときの高速化性能を確認します。 検証は、データセット内の数値データをカテゴリ化する処理に対し、複数の実装について高速化性能を測定する形で行います。 1.DataFrameに新たな行を追加(数値→カ

          FireDucks性能評価

          pandasの代替案: Fireducks,Vaex, Polars, Modinを徹底比較!どれが最適?

          本記事はFireDucksユーザー記事シリーズの第4弾です.本記事は黒柳茂様に執筆して頂きました 1. はじめにpandasの一般的な使用と課題 Pandasはデータ分析の世界でよく使われるPythonライブラリで、データの読み込み、加工、分析を簡単に行えます。特にその使いやすさと柔軟性は、多くのデータサイエンティストやアナリストに愛用されています(私も10年以上愛用しています!)しかし、Pandasは大きなデータセットを扱うときにメモリ消費が高くなり、処理速度が低下する

          pandasの代替案: Fireducks,Vaex, Polars, Modinを徹底比較!どれが最適?

          FireDucksユーザー記事シリーズ

          我々はpandasとAPI互換で高速なデータフレームライブラリFireDucksを開発しています. FireDucksをもっと多くの方に知っていただきたと思い,FireDucks開発チーム以外の方に利用してもらい,記事を書いてもらう企画を行っています.開発者とはまた違った視点でFireDucksを見て頂き,より良い紹介記事になると考えています. 記事は順次公開していきますが,本ページでは公開された記事を一覧にまとめます. [10] pandasを用いた大規模データの前処

          FireDucksユーザー記事シリーズ

          AWS GlueでFireDucksを使ってPandasを高速化する

          本記事はFireDucksユーザー記事シリーズの第3弾です.本記事はアリス様に執筆して頂きました. AWS Glueはデータ統合サービスで、データの抽出、変換、ロード(ETL)を簡単に実現します。世界中の企業で人気があります。 一方、Glueのサービスは比較的高価であるため、日々大量のデータを処理する必要がある場合、コストを削減するためにツールのパフォーマンスをチューニングに苦労します。 NEC研究所からFireDucksベータ版が無料公開されています。他の高速化ライブ

          AWS GlueでFireDucksを使ってPandasを高速化する

          pandas高速化の新星、FireDucksに迫る

          本記事はFireDucksユーザー記事シリーズの第1弾です.本記事はBell様に執筆して頂きました. データ処理と分析をする際に、多くの方がPythonを使ていると思います。中でも、PandasライブラリはPythonを用いたデータ処理においてなくてはならないものになっています。Pandasには便利な関数が多数あり、複雑なデータセットを効率的に処理・分析することができます。 しかし、Pandasの使用にあたっては、大規模なデータセットを扱う際にパフォーマンスが課題になるこ

          pandas高速化の新星、FireDucksに迫る

          FireDucks入門: 学習コストゼロでpandasを超えるパフォーマンスを手に入れる!

          本記事はFireDucksユーザー記事シリーズの第2弾です.本記事は黒柳茂様に執筆して頂きました データサイエンティストであれば必ず利用していると言って良いpandas。 とても愛着を持っているライブラリだけど、もっと手軽に高速化できないものかと検索していたところFireDucksを発見し興味を持ちました! 1. はじめにFireDucksとは何か? FireDucksは、NECが開発した「pandas」の分析を高速化するpythonライブラリ。NECが30年以上にわた

          FireDucks入門: 学習コストゼロでpandasを超えるパフォーマンスを手に入れる!