記事一覧
Power BIの学習ロードマップ
コグラフデータ事業部のモロズミです。
今回は、BI(Business Intelligence:ビジネスインテリジェンス)の代表的なツールであるPower BIについて、マイクロソフトが提供している学習素材を組み合わせた学習ロードマップを解説します。
Microsoft LearnのPower BIコースマイクロソフトが提供しているMicrosoft LearnというサイトのPower BI編
データ転送ツールのtroccoを使う場面とメリット
こんにちは、コグラフ株式会社データアナリティクス事業部です。
今回はデータ基盤の開発などで役立つデータ転送ツールのtroccoについて、使う場面とメリットを紹介します。
troccoとはtroccoとは、データ分析基盤の開発を支援するデータ転送ツールです。
主な機能として、次のような作業をすることができます。
データ転送
データマート生成
ワークフロー設定(ジョブ管理)
Git/AP
SQLはプロジェクト管理で大活躍 - 直積演算の力を知ってほしい -
こんにちは。コグラフ株式会社データアナリティクス事業部の塩見です。今回は、データ分析が得意な方がプロジェクト管理でも活躍できる理由についてお話しします。
プロジェクト管理では、膨大なタスクを適切に管理する必要があります。各タスクに担当者や開始日、終了日を設定し、工数も管理しなければなりません。特に大規模なプロジェクトでは、タスクが何千行にも及ぶことがあります。この膨大なタスク一覧を見ただけでは、
ドリルダウン/ドリルアップ機能でダッシュボードをコンパクトにさせる!
今回はBIツールでデータを読みやすくする工夫を紹介したいと思います。
便利なデータ可視化及びダッシュボード作成ツール Looker StudioやTableauなどは階層という構造とドリルダウン/ドリルアップという機能が搭載されています、データの詳細な分析や視覚化を簡単に行うための強力な機能です。具体的にどのように活用できるか、説明させていただきます。
階層(Hierarchy)とは
データが
第四弾:Pyspark 問題集(Window編)
こんにちは。コグラフSSD−2事業部の安山です。
データサイエンスの世界では、大規模なデータセットを扱う能力が不可欠です。その中核をなすのが、Apache SparkとそのPythonインターフェイスであるPySparkです。PySparkは、ビッグデータ処理における強力なツールであり、データ分析、機械学習、リアルタイムデータストリーミングなど、多岐にわたる用途に利用されています。
PySpark
エクセルの新機能、GROUP BY
こんにちは。コグラフSSD−2事業部のH.Lです!
PythonやSQLと格闘しながら、エクセルのピボットテーブルを使ってデータ分析をしている皆さん、今日はエクセルの新しい「GROUP BY」関数を使ったデータ分析の方法を紹介しましょう。
ぜひ最後までご覧ください!
GROUP BYとは?Microsoftによりますと
これは、Excelの動的配列計算エンジンのおかげで、単一の数式を使用してデ
【Linux】cat,lessとmoreの使い方及び違いについて
こんにちは。SSD-2事業部の新米社員H.Sです。
Linuxにはファイルの内容を表示するコマンドがいくつかあります。
代表的なコマンドのcat,lessとmoreの使い方及び違いについてまとめてみました。
では今回はLinuxの初心者向け、RedHat系のLinuxディストリビューションのCentOS Stream 9を使って、皆さんと一緒にcat,lessとmoreのコマンドについて復習して行
第三弾:Pyspark 紹介(結合編)
こんにちは。コグラフSSD−2事業部の安山です。
データサイエンスの世界では、大規模なデータセットを扱う能力が不可欠です。その中核をなすのが、Apache SparkとそのPythonインターフェイスであるPySparkです。PySparkは、ビッグデータ処理における強力なツールであり、データ分析、機械学習、リアルタイムデータストリーミングなど、多岐にわたる用途に利用されています。
今回は結合の紹
第五弾:Pyspark UDF紹介(おそらく最後)
こんにちは。コグラフSSD−2事業部の安山です。
データサイエンスの世界では、大規模なデータセットを扱う能力が不可欠です。その中核をなすのが、Apache SparkとそのPythonインターフェイスであるPySparkです。PySparkは、ビッグデータ処理における強力なツールであり、データ分析、機械学習、リアルタイムデータストリーミングなど、多岐にわたる用途に利用されています。
今回はUDFの
『10年戦えるデータ分析入門』を読んで
こんにちは、コグラフデータアナリティクス(DAD)事業部のNです。
最近は業務で自らSQLを使ってクエリを書く機会が増えたので、業務上の必要性から『10年戦えるデータ分析入門』という本書を手に取りました。
今回はこちらの概要と、実務で活用できそうなクエリの一例を紹介します。
この本の著者について本書の著者の青木峰郎(あおきみねろう)さんは、クックパッド在籍中に分析サービスを開発し、Treasur
【BigQuery】配列の展開でハマった話
こんにちは。データアナリティクス事業部です。
今回は、配列構造のテーブルからデータ抽出した際に少し詰まったことがあるので、その話についてご紹介させていただきます。
UNNESTと空配列について以下のようなテーブルがあるとします。
どちらも同じテーブルのように見えますが、table_Aとtable_Bのitemsを以下のようにUNNESTすると、、、
SELECT id, itemFROM
PythonとJavaScriptの対比
こんにちは、コグラフ株式会社のH.Mです。
このノートは、PythonとJavaScriptの基本的な構文や用途を比較し、どちらを学ぶべきか迷っている人に向けて作成しています。
1. 言語の概要
Python
1991年にGuido van Rossumによって開発された汎用プログラミング言語です。
初学者にも親しみやすいシンプルで読みやすい文法が特徴です。
データ解析、AI、Web開発
GIT&GITHUBについて
こんにちは。SSD-2事業部のG・Nです。
私は初心者エンジニアです。
今回は、エンジニアがよく使用するツールであるGitとGitHubについて説明したいと思います。
バージョン管理システム(VCS)とは?プロジェクトやファイルの変更履歴を記録し、複数の人が同時に作業する際に変更を調整するためのツールです。
Gitとは?Gitは開発者がソフトウェアのソースコードやファイルの変更を追跡し、効果的
Windowsで始めるReact入門ガイド
こんにちは。コグラフSSD−2事業部のSYです。
現在フロントエンジニアを目指してReactの勉強中です。そんな私がこれからReactを学び始めたいという方に向けて、Windows環境でReactを始めるための基本的なセットアップ手順を紹介します。
はじめにReactは、Facebookが開発したJavaScriptライブラリで、ウェブブラウザで複雑なUIを容易に生成することができます。つまりJ
並列処理入門 Pythonでの大規模データの爆速処理をDaskではじめよう
こんにちは。コグラフ株式会社データアナリティクス事業部のワダです。
データ分析関連の業務で多くの人が遭遇するのが「大きなサイズのデータをどう処理するか」問題だと思います。Pythonのデータ分析用ライブラリであるPandasは便利ではありますが、大きなデータになると処理が遅い、挙句にはメモリ不足でクラッシュしてしまう等の状況に出くわします。
今回はそんなビッグデータを扱う上で便利な手法である「並
AWSのデータ保存プロセスをTerraformで実行するメリットと実装方法
こんにちは。コグラフデータアナリティクス事業部です。
今回はAWSとTerraformを用いたデータ処理プロセスの構築について、AWSやTerraformに興味のある初心者に向けてメリットと実装方法をご紹介します。
Terraformでインフラ構築するメリットTerraformの概要
Terraformは、インフラの構築作業を、手動ではなくコードで実行するためのツールです。
人間が手動で作