jinya nakamura

データ分析の会社(ゴーガ解析コンサルティング)でコンサルタントをやってます。 このノー…

jinya nakamura

データ分析の会社(ゴーガ解析コンサルティング)でコンサルタントをやってます。 このノートには、今取り組んでいる「データエンジニアリング」のことや、データ分析のノウハウなんかを細々と書いていこうと思っています。 https://www.jinyanakamura.com/

マガジン

  • データサイエンティストのExcelテクニック

    データを分析したいとき、誰もがもっている Excel が、非常に便利なツールになります。このマガジンでは、データサイエンティストがExcelを使って、実際にデータをどうやって観察しているかをお伝えします。

  • データエンジニアリングを始めよう

    企業がデータを活用するための「データエンジニアリング」を考えます。考え方、活用方法、人材育成など。

最近の記事

授業で使うホワイトボードをJamboard からMiroにする

Google Jamboard のサービス終了に伴い、オンライン授業の際のホワイトボードを乗り換えなければならないので、何か良いサービスがないかを探していたところ、Miroがそれなりに使えるので、その方法。 まず前提として、自分の使い方の特徴: オンライン授業は PC から Google Meet を使って行う。 科目は実用数学。 授業スライド等はなし。全てホワイトボードに手書きで行う。教室で黒板を使って実施するのと同じ要領。(たまにワークシートなどは使う。) 手書

    • インタラクティブ問題対策用のクラスを作った

      競技プログラミングでしばしば出題されるインタラクティブ問題について、長らくデバッグとか大変……と思っていたので、それ用のクラスをDIYしてみました。 やりたいこと インタラクティブ問題の動作確認を容易にしたい vscode+gdbのデバッグモードで、ブレークポイントで止めて様子を見られるようにしたい stdin から親問題のパラメータ(インタラクティブ問題の中で、対話相手が持っている隠された数字等)を入れたい デバッグモードで動かしていたコードをそのまま Submi

      • 【解決】windowsターミナルで日本語入力時のフォントサイズがずれる問題

        WSL Ubuntu を使う際には windows ターミナル(旧コマンドプロンプト)を利用していて、快活便利でよく使っているのだけれど、二点不満があって、今回その一つが解決したので解決方法をメモします。 解決したのは、windowsターミナルで日本語を入力する際、「インライン変換中のフォントが小さくなる問題」。この状況に「インライン変換」という名前がついていることがわかって、それで検索したところ解決しました。いままでその名前がわからなかったので、結論にたどり着けなかった。

        • ARC177-Dメモ

          ARC177-D https://atcoder.jp/contests/arc177/tasks/arc177_d について、自分の考え方のメモ。 まず、確率に $${2^N}$$ を掛けて出せ、ということなので、これは場合の数を出せということ。棒ごとに$${2}$$ 通りのケースを持っていて、それが$${N}$$ 個集まれば$${2^N}$$ になって、これが全体なので、確率を求めるのではなく、「その回で全てが倒れる場合の数」を求めればOK。 さて、棒が連鎖して倒れる

        授業で使うホワイトボードをJamboard からMiroにする

        マガジン

        • データサイエンティストのExcelテクニック
          10本
        • データエンジニアリングを始めよう
          5本

        記事

          データエンジニアリングとは

          これまで様々なところで話してきたデータエンジニア、データエンジニアリングに関する弊社(ゴーガ解析コンサルティング)の知見を、ざっくりまとめて置いておく。 データエンジニアリングとはデータエンジニアリングとは データ利活用を推進すること データ利活用 既に使えているものは、データ利活用とは言わない データと目的とが繋がり、運用されているなど これはシステムエンジニアリングの担当 データ利活用とは 使えていないデータの使い道をつくること 目的のためのデータを集め

          データエンジニアリングとは

          ARC174-Eメモ

          ARC174-Eが面白かったので備忘録。https://atcoder.jp/contests/arc174/tasks/arc174_e 問題は、$${1 \le K \le N \le 3\times 10^5}$$ と 数列 $${P = \{P_1, …, P_N\}, 1 \le P_i \le N, P_i \ne P_j \text{ if } i \ne j}$$ が与えられ、また $${t = 1,…,N}$$ の全てについて、辞書式順序で$${P}$$

          ABC333-Fが難しかったのでメモ

          ABC333-F Bomb Game 2 https://atcoder.jp/contests/abc333/tasks/abc333_f 全ての人が消える確率が同じなので、自分の手番になったときに、そこから自分が最後の一人になる確率は、自分以外にあと何人残っているかだけで決まる。そこで、自分以外の残り人数を$${n}$$として、そこから自分が勝つ確率を $${V_n}$$ とする。 $${V_0}$$ は、「自分の手番になったときに、自分以外の残り人数が$${0}$$

          ABC333-Fが難しかったのでメモ

          ABC321-FをFPSで考えると、結局どうなる?(冗長版)

          ABC321-FはFPSで考えればいい、ということはわかって、その結果が配ったDPを逆に戻してあげればいいということもわかったのだけれど、いまいち理解が不足していたので、ちゃんと行間を埋めてみました。備忘録です。 なお、基本的なことは全て maspy さんの記事「[多項式・形式的べき級数](2)式変形による解法の導出」に書いてあって、こちらで勉強しました。ありがとうございます。 + d FPSで考えれば、「+ d」は形式的べき級数 $${f(x)}$$ に $${1 +

          ABC321-FをFPSで考えると、結局どうなる?(冗長版)

          ガンベル分布の離散選択モデルからsoftmaxの導出

          昔よくやっていた変形を久しぶりに使おうとしたら忘れていたので、備忘録。 ガンベル分布ガンベル分布($${G}$$とする)は次の形: 累積確率分布 $$ F_G(x)=\exp \left(-\exp \left(-\frac{x-\mu}{\eta} \right) \right) $$ 確率密度関数 $$ f_G(x) = \frac{1}{\eta} \exp \left(-\frac{x-\mu}{\eta} \right) F_G(x) $$ 期待値、分散

          ガンベル分布の離散選択モデルからsoftmaxの導出

          進めないコストがある場合の期待値の計算(ABC314-E)

          テンパって落としたので、期待値問題の復習。 問題 https://atcoder.jp/contests/abc314/tasks/abc314_e 部分問題: 確率 $${p}$$ で成功:コスト $${a}$$ を払って終了 確率 $${q = 1-p}$$ で失敗:コスト $${b}$$ を払って継続 この遷移のコスト期待値は? 1回目で成功、2回目で成功、3回目で成功、・・・のコスト×確率をすべて足し合わせる。 $$ \begin{aligned} E

          進めないコストがある場合の期待値の計算(ABC314-E)

          noteのつぶやき機能とは? どんな感じかテストしてみよう。

          noteのつぶやき機能とは? どんな感じかテストしてみよう。

          vscode+markdownで競プロマイライブラリを作る(メモ)

          競プロで使っているマイライブラリを整理するためのメモ。 現状 jupyter notebook で作成している。 解説を markdown ブロックで、コードをコードブロックで書いており、解説→コード→解説→コード・・・のような構造。 markdownで数式を記入できる 画像は draw.io を使って作成し、ドキュメントに埋め込む。 いいところ 前後を視認しながら作成、修正できる。 ファイルを通してプレビューするのではなく、markdownをセル毎に表示/修

          vscode+markdownで競プロマイライブラリを作る(メモ)

          リモートワークと新卒社員(メモ)

          問題意識会社に新卒社員が入社した際、最初のうちは会社に慣れたり、仕事に慣れたりする期間が必要。しかし、完全リモートワークをしている会社において、新卒社員を最初からひとりのリモートワークにしてしまうと、うまくいかないんじゃないか? アイデア「研修期間」を設定し、その間は「担当社員」と物理的に同じ空間で働く。 研修期間は3ヶ月~6ヶ月程度。 担当社員は1週間~2週間で交代制、いろんな社員とのコミュニケーションをとれるように。 研修場所は、担当社員の指定する場所を転々とする

          リモートワークと新卒社員(メモ)

          キャリアセミナー向けメモ

          某キャリアセミナー向けに作成したメモです。多少私見も織り交ぜながら、データ分析者、データエンジニア、データサイエンティストなどの仕事の様子と、それらの仕事に就くために必要なことなどをメモします。 データサイエンティストとは?定義いろいろ IPAの定義によれば、データサイエンティストとは「DXの推進において、データを活用した業務改革や新規ビジネスの実現に向けて、データを収集・解析する仕組みの設計・実装・運用を担う人材」とのこと。 しかし一方で、(一社)データサイエンティスト

          キャリアセミナー向けメモ

          GCE の docker で jupyter notebook を動かしてローカルブラウザで使うには

          今回、わけあって GCE の docker で jupyter notebook を動かして、それを手元のマシンのブラウザから使う機会があり、その設定にちょっと、いやかなり手こずったので、備忘録を残します。2023/2/28の情報です。 なお、下に記しますが、ある方が残してくださった情報で非常に助かったので、その恩返しも込めて、冗長ではありますがGCEのインスタンスを立てるところからすべて記録しておきます。 ということで、まずはGCEでまっさらのインスタンスを立てます。名

          GCE の docker で jupyter notebook を動かしてローカルブラウザで使うには

          K!が2で割れる回数=K-popcount(K)であること

          $${K!}$$が2で割れる回数を$${f(K)}$$とすると、$${f(K)=K-\text{popcount}(K)}$$ となることの証明。ARC156のD問題で使って、忘れそうなので備忘メモ。 まず、$${K!}$$が素数$${p}$$で割れる回数$${f(K)}$$は中学受験の頻出問題で、$${K}$$を$${p}$$で割った商、$${K}$$を$${p^2}$$で割った商、…を全てたせばよい。これは、$${1}$$から$${K}$$まで全て並べて、$${p}$$

          K!が2で割れる回数=K-popcount(K)であること