コグラフ株式会社 データアナリティクス事業部

コグラフ株式会社 データアナリティクス事業部(cograph_data) データアナリ…

コグラフ株式会社 データアナリティクス事業部

コグラフ株式会社 データアナリティクス事業部(cograph_data) データアナリスト募集中!未経験OK!詳しくは記事下部にあるWantedly、Twitterリンクから

マガジン

最近の記事

AWS Step FunctionとAmazon Athenaを組み合わせたデータ分析のメリット

こんにちは。コグラフ株式会社データアナリティクス事業部のモロズミです。この記事では、AWS Step FunctionとAmazon Athenaを組み合わせたデータ分析のメリットを紹介します。 自動化分析フローの構築メリットの一つ目は、自動化分析フローの構築ができることです。AWS Athenaを用いたデータ分析では、以下のように複数のステップがあります。 データの保存 データの取得 クエリの実行 テーブル作成 テーブル更新 Athenaを用いて、特定の条件を

    • データ分析の前にやっておくべきこと - 横持ち、縦持ち、整然データ構造の話 -

      こんにちは。コグラフ株式会社データアナリティクス事業部の塩見です。 データ分析に取り組む際、データの持ち方によってその後の作業効率や分析のしやすさが大きく変わることをご存知でしょうか?特に「横持ちデータ」と「縦持ちデータ」については、しっかりと理解しておくことで、分析の負担を大きく減らすことができます。 この記事では、データ分析の前に知っておくべき「横持ち」「縦持ち」について解説し、横持ちデータから縦持ちデータに変換することの重要性を説明します。データ構造を整理することで

      • AWSのデータベースサービス~概要、種類、重要なポイント~

        こんにちは。コグラフ株式会社データアナリティクス事業部のモロズミです。この記事では、AWS(Amazon Web Services)が提供しているデータベースサービスについて紹介します。 AWSのデータベースサービスの概要AWS(Amazon Web Services)には、使用する場面に応じた、豊富なデータベースサービスがあります。 このセクションでは、AWSのデータベースサービスの概要を簡単に説明していきます。 AWSのデータベースサービスは、大きく分けて、SQLデ

        • AWS Athenaの活用法と学習法

          こんにちは。コグラフ株式会社データアナリティクス事業部のモロズミです。この記事では、AWS Athenaの活用法と学習法について紹介します。 Athenaとは?Athenaの基本概念 AthenaはAWSが提供するサーバーレスの分析サービスです。 Athenaは、クエリ実行に必要なコンピューティングリソースを自動でプロビジョニングし、データセットに応じてスケーリングします。 Athenaは、S3やオンプレミスデータソースなどの複数のデータソースを統合し、包括的なデータ

        AWS Step FunctionとAmazon Athenaを組み合わせたデータ分析のメリット

        マガジン

        • Pythonで統計学を学ぶ
          1本
        • SQLまとめ
          2本
        • Tableau記事まとめ
          3本
        • データ分析ロードマップ
          4本

        記事

          データエンジニアのためのAWS Lambda

          こんにちは。コグラフ株式会社データアナリティクス事業部のモロズミです。この記事では、データエンジニアがAWS Lambdaをどのように活用できるかについて紹介します。 1.AWS Lambdaの基礎知識1-1.AWS Lambdaとは何か? AWS Lambdaは、Amazon Web Servicesが提供するサーバレスコンピューティングサービスの一つです。 このサービスを使用することで、デプロイやインフラのスケーリングに関する負担が軽減され、開発者はアプリケーション

          統計検定2級の学習で参考になるおすすめサイト3選

          こんにちは、コグラフ株式会社データアナリティクス事業部のモロズミです。 今回は統計検定2級の学習で参考になるおすすめサイト3選をご紹介します。 統計学の時間一つ目は統計学の時間です。 学習スケジュールから基礎知識、研究計画の方法まで、統計に関する幅広い知識が網羅されています。 文字で読むと抽象的な内容も、豊富な図解イラストが描いてあることと、数式の途中説明を省略せずに書いてあることから、統計の学習で理解の詰まったときに参考になることが書いてある便利なサイトです。 ス

          統計検定2級の学習で参考になるおすすめサイト3選

          カイ二乗検定は何をやっているのか

          こんにちは。コグラフ株式会社データアナリティクス事業部の塩見です。 私は「カイ二乗検定」に対して、当初は納得できない部分がありました。やりたいことに対して、必要以上に複雑な手法のように感じたからです。同じような疑問を持つ方も多いのではないでしょうか。この記事では、私が「カイ二乗検定」を理解し納得するまでの過程をお伝えします。 結論から言いますと、一度頻度論を離れてベイズ統計の視点で考えてみたところ、実は非常に単純なことを行っていると気づきました。その後、カイ二乗検定を再び

          AWSのホスティングサービスの選び方

          こんにちは。コグラフ株式会社データアナリティクス事業部のモロズミです。この記事では、データサイエンスの分野で使われているサービスのAWS (Amazon Web Services)の中のホスティングサービスの選び方を紹介します。 ホスティングサービスの概要ホスティングサービスとは、通信事業者などが顧客にサーバコンピュータをインターネットを通じて貸すサービスです。 AWSでは、ウェブホスティングサービスを提供しています。 ウェブホスティングサービスでは、以下のような機能が

          Power BIの学習ロードマップ

          コグラフデータ事業部のモロズミです。 今回は、BI(Business Intelligence:ビジネスインテリジェンス)の代表的なツールであるPower BIについて、マイクロソフトが提供している学習素材を組み合わせた学習ロードマップを解説します。 Microsoft LearnのPower BIコースマイクロソフトが提供しているMicrosoft LearnというサイトのPower BI編はPower BIの基本的な操作を理解するうえで有益です。 ラーニングパスとモ

          データ転送ツールのtroccoを使う場面とメリット

          こんにちは、コグラフ株式会社データアナリティクス事業部です。 今回はデータ基盤の開発などで役立つデータ転送ツールのtroccoについて、使う場面とメリットを紹介します。 troccoとはtroccoとは、データ分析基盤の開発を支援するデータ転送ツールです。 主な機能として、次のような作業をすることができます。 データ転送 データマート生成 ワークフロー設定(ジョブ管理) Git/API連携 他にもいろいろな機能を使うことができます。 転送する元のデータは広告

          データ転送ツールのtroccoを使う場面とメリット

          SQLはプロジェクト管理で大活躍 - 直積演算の力を知ってほしい -

          こんにちは。コグラフ株式会社データアナリティクス事業部の塩見です。今回は、データ分析が得意な方がプロジェクト管理でも活躍できる理由についてお話しします。 プロジェクト管理では、膨大なタスクを適切に管理する必要があります。各タスクに担当者や開始日、終了日を設定し、工数も管理しなければなりません。特に大規模なプロジェクトでは、タスクが何千行にも及ぶことがあります。この膨大なタスク一覧を見ただけでは、プロジェクト全体がうまく計画されているかを簡単に判断するのは困難です。 そこで

          SQLはプロジェクト管理で大活躍 - 直積演算の力を知ってほしい -

          ドリルダウン/ドリルアップ機能でダッシュボードをコンパクトにさせる!

          今回はBIツールでデータを読みやすくする工夫を紹介したいと思います。 便利なデータ可視化及びダッシュボード作成ツール Looker StudioやTableauなどは階層という構造とドリルダウン/ドリルアップという機能が搭載されています、データの詳細な分析や視覚化を簡単に行うための強力な機能です。具体的にどのように活用できるか、説明させていただきます。 階層(Hierarchy)とは データがどのように構造化されているかを表し、ディメンジョン内のレベルの定義済みの順序を指

          ドリルダウン/ドリルアップ機能でダッシュボードをコンパクトにさせる!

          第四弾:Pyspark 問題集(Window編)

          こんにちは。コグラフSSD−2事業部の安山です。 データサイエンスの世界では、大規模なデータセットを扱う能力が不可欠です。その中核をなすのが、Apache SparkとそのPythonインターフェイスであるPySparkです。PySparkは、ビッグデータ処理における強力なツールであり、データ分析、機械学習、リアルタイムデータストリーミングなど、多岐にわたる用途に利用されています。 PySparkを使った具体的なデータ処理の例と解答例を示し、理解を深めることができるように設計

          エクセルの新機能、GROUP BY

          こんにちは。コグラフSSD−2事業部のH.Lです! PythonやSQLと格闘しながら、エクセルのピボットテーブルを使ってデータ分析をしている皆さん、今日はエクセルの新しい「GROUP BY」関数を使ったデータ分析の方法を紹介しましょう。 ぜひ最後までご覧ください! GROUP BYとは?Microsoftによりますと これは、Excelの動的配列計算エンジンのおかげで、単一の数式を使用してデータ集計を実行する強力かつシンプルな方法を提供します。 通常のピボットテーブル

          【Linux】cat,lessとmoreの使い方及び違いについて

          こんにちは。SSD-2事業部の新米社員H.Sです。 Linuxにはファイルの内容を表示するコマンドがいくつかあります。 代表的なコマンドのcat,lessとmoreの使い方及び違いについてまとめてみました。 では今回はLinuxの初心者向け、RedHat系のLinuxディストリビューションのCentOS Stream 9を使って、皆さんと一緒にcat,lessとmoreのコマンドについて復習して行きましょう。 1.catとは書式:cat [オプション] <ファイル名> #[

          【Linux】cat,lessとmoreの使い方及び違いについて

          第三弾:Pyspark 紹介(結合編)

          こんにちは。コグラフSSD−2事業部の安山です。 データサイエンスの世界では、大規模なデータセットを扱う能力が不可欠です。その中核をなすのが、Apache SparkとそのPythonインターフェイスであるPySparkです。PySparkは、ビッグデータ処理における強力なツールであり、データ分析、機械学習、リアルタイムデータストリーミングなど、多岐にわたる用途に利用されています。 今回は結合の紹介となります。 インストール関連!pip install pyspark f