マガジンのカバー画像

#機械学習 #データサイエンティスト 記事まとめ

102
機械学習やデータサイエンティスト関連の記事を収集してまとめるマガジンです。
運営しているクリエイター

#統計学

2021年データサイエンスにオススメの本80冊!

ビッグデータの発展とともに、データサイエンスは今広く知られるようになりました。大学にデータサイエンスを学べる学部ができたり、データサイエンティストを目指している人もたくさんいるでしょう。この記事では、統計学から機械学習やマーケティングまで、初心者がデータサイエンスを学ぶのにおすすめの本を80冊紹介します! Part I: データサイエンス概論1.『データサイエンス講義 』Rachel Schutt、Cathy O'Neil 著 本書では、データサイエンスを行う上で、どのよ

第13回 予測モデルとAIの使い分け

シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。 正確な予測が価値を生むときまずリサーチデザインを応用して、予測モデルやAI開発の課題設定について考えてみましょう。予測モデルとは統計手法や機械学習手法を使って「とにかく正確に何かの値を予測してその結果を出力するもの」と述べました。一方AIについては「予測に基づき、最適な選択肢を提示する」ものと述べました。

「パッションを持って取り組んだら理解者が現れた」日本経済新聞 山内秀樹氏×西内啓対談 Vol.2

西内啓の対談シリーズ。日本経済新聞社の山内秀樹さんの第2回目です。パッションを持って取り組んだからこそ社内でデータ活用が認知されたという話から、データサイエンティストの育成・内製化の必要性まで、会話が広がります。 シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。 パッションを持って取り組んだら理解者が現れた西内 解約を防止するために読者にメールを送信す

holdoutによるモデル選択について

複数の機械学習モデルからモデルを選択する際、訓練データセットを学習用と検証用にholdoutし、検証用データセットでのmetricsの値を参考にモデル選択を行うのは一般的な方法でしょう。要するに、以下のようにデータを分割し 学習用データセットで複数のモデルを学習させ、検証用データセットでmetricsの一番良いモデルを選択し、選択したモデルの評価をテストデータで行うという流れです。 ところで、訓練用データのholdoutによってモデル選択することにリスクはないのでしょうか

ARIMAモデルでnoteの週間アクティブユーザー数を予測する

今年早々、note の月間アクティブユーザー数が1,000万人を突破したという記事が出たと思います。 実際 note はかなりの勢いで成長していますが、はたして過去のデータを用いて今後の成長の予測ができるのかどうか気になりました。 今回はGAの週間アクティブユーザー数データを用いて、どのようにnote が成長しているのか、次週のアクティブユーザー数が予測できるのかを見ていきたいと思います 😊 ■ 原系列・差分系列・対数差分系列の確認 ① 原系列 ・ 各時点で期待値・

指名検索が多い映画は興行収入も多い説(映画編)

【更新情報2024年5月26日】「その決定に根拠はありますか?」 確率思考でビジネスの成果を確実化するエビデンス・ベースド・マーケティング 戦略を導く為の「エビデンスの作り方」をテーマに、これまで体系化してきたノウハウを紹介したマーケティング・インテリジェンスの書籍を出版致しました。5問の調査でTVCM(施策)→コンビニで商品を見た(要因)→売上がいくら増えたか?→年間16.67億円(効果)の様に経路ごとに構造的に効果を把握する国際特許(PCT)を出願した分析法

「データ分析はコミュニケーションツールである」グッデイ 柳瀬隆志氏×西内啓対談 Vol.2

西内啓の対談シリーズ。ホームセンター「グッデイ」の柳瀬隆志さんの第2回目です。実際に小売業ではどのようなデータ分析が行われているのかという基本的なお話から、同社が実験している音声認識技術を搭載した売場案内ボットによって見えてきたことまで、話は広がります。 シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。 データ分析によって話の齟齬がなくなった西内 私た

R|階層線形モデルで渋谷区の賃貸価格を予想する

以前の重回帰による賃貸価格の予測では、『最寄り駅ごとに賃貸価格の母集団分布(例えば各説明変数の母回帰係数)が異なりそう』という仮説を立て、1駅ずつ重回帰モデルを推定していきました。 ただ、駅が変わるとモデルの作り直しをしたりですんごいめんどくさい。 今回はそうした「最寄り駅」ごとに階層構造になっているデータに対する分析手法として知られている「階層線形モデル」を試してそうしたお悩みの解消を試みたいと思います( ˆoˆ ) ■ 今回やりたいこと■ 階層線形モデルとは切片や傾

第7回 アウトカムを設定するコツ(1)

シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。 よいアウトカムとは何か アウトカムと解析単位という2点が適切に定まれば、「どこから手をつけていいかわからない」という問題も、「出てきた結果がナンセンス」という問題も回避することができます。これがデータを使って「よいリサーチクエスチョンを考えることができた」という状態です。 とはいえ、慣れないうちはそれが

年号の続いた年数の傾向を調べてみた。

§ Introductionせっかく年号が変わって令和になったので、これまでの年号が続いた年数について時系列分析して、年号の続きやすさについて傾向を調べてみることにしました。 §1. 準備ひとまず年号が続いた年数のデータを準備してきました。以下からcsvファイルでダウンロードできます。 ・nengo : 年号 ・start : 年号が始まった年 ・years : 年号が続いた年数 室町時代に北朝と南朝に分かれていた時期があったので、今回は北朝に統一してデータを取得するこ

noteユーザーに捧げるR tutorial #1

noteユーザーには【データ分析】や【機械学習】に興味を持っている方も多いでしょう。今回はそんな皆さんに統計ソフトRという無償のソフトをお勧めしたい。 今回の目標:Rの魅力を知って、Rをインストールするまで。 【目次】 1. Rは統計学の勉強と同時に始めるべき 2. 統計ソフトRを勧める理由 3. Rを導入する前に 4. Rを導入しよう! 5. コンソール画面のフォントを変えよう 1. Rは統計学の勉強と同時に始めるべき統計学の勉強を始めると「標準偏差」という言葉に遭遇

実はデータ分析を裏から支える『勘とセンスと美意識』を磨く。

データドリブンマーケティングやデジタルマーケティングが浸透して以来、勘とか経験に基づくマーケティングが軽んじられてきた。しかしここ数年で何でもかんでもロジカルシンキング(左脳的思考法)な傾向が見直されて、右脳的な勘とかセンスがもう一度クローズアップされてきている。 どういうことなんだろう? 10年前くらい。まさに猫も杓子もデータドリブン時代の幕開けだった。 ビッグデータという言葉がちょうど今のAIのようなバズワードになり、データサイエンティストという職種が浸透し始めたのがこ

第5回 継続的なデータ活用プロセスにおけるデータ整備の位置づけ

シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。 データ整備のサグラダファミリアここまで「業務のためのデータ」をどう「活用のためのデータ」に加工するかを詳しく説明してきました。複数の表を結合するためのキーを確認し、それぞれの表の中に含まれる対象のデータを確認し、最終的にどのような切り口で1行ずつにまとめるのかを決めて、それぞれの項目を数値化したり分類した