あなたと作る共同マガジン。総勢4000名が関わる大規模マガジンに成長中。グループ合計で参加者1,500名、フォロワ数2,500名、約18万記事が収録中。🥕コンテンツを広めたい方の参加をお待ちしています。🥕マナー:①連続投稿はしない②社会一般的に不適切な記事は投稿しない③トップ画面は変えない。参加希望の方は,マガジンの固定記事からコメントしてね。
Yasui
データサイエンスの話題はこちら
雑談です。思ったことなど雑多に書きます
これまでに作ったものを紹介します
なんやかんや週一で記事を書き続けて半年が経とうとしています。これも、読んでくださってアクションを下さる皆さまのおかげで継続できました。ありがとうございます。 生活が変わったこともあり、今後は不定期での記事執筆としたいと思います。今後ともよろしくお願いいたします
今回は珍しく実務のことについて書きます。 現在の所属では特別な機器を各病院に使ってもらい、取得したデータで新しい医療を実現するためのAI開発や、新しいエピデンスを得るための臨床研究を行っています。 その中で、データはAWSのS3バケットに保存してもらうのですがその管理が中々に大変です。医療系での研究開発では研究計画通りにデータ収集が進んでいるか、症例数を管理できる体制が必須です。 ということで、これを実現するシステムをLooker Studioで構築しました。 ※当然
少し前にObsidianをプロジェクト管理の目的で使い始めました。 これとは別に、ローカルPCでは学習のノートを「知識の泉」としてObsidianでとっていました。 私はAIエンジニアをしており、趣味の勉強と業務の勉強が同じ領域であることが多いです。そこで、ローカルPCで勉強したことを業務上でもすぐに確認したいなあと思うようになってきています。 そこで、Git連携によってObsidianのValutをローカルPCと業務用PCで同一にしてみました。 読む前に注意点この記
こんにちは、今回は多重共線性について書いていきます。本やブログでは「予測モデルを作成するときに、説明変数に多重共線性(or マルチコ)があるかを確認し、もしある場合は無くなるように調整しましょう。」という趣旨でよく説明されています。 しかし、多重共線性があるときにどのようなことが起こって、モデルに影響があるかを説明しているものは多くない印象でした。 そこで、R言語でシミュレーションして多重回帰モデル上での多重共線性発生時の振る舞いを確認してみました。 コード類は↓です。
私は大学生のときにかなり特殊な経験をしてきたと自負しています。 所属は数学科であり、紙とペンだけで単位をとっていきましたが、卒業研究になると急にマイクロピペットと顕微鏡に持ち替えて研究を行うといったことをしました。 なので、卒研発表では頑張って単位を取ってきた数学の知識を一つも使うことがなく、結果的に生命科学の分野で卒業研究の単位をいただきました。 なぜそのような経歴になったのかは↓の記事に少しだけ書いています。 私自身はこの経験をマイナスなものと捉えておらず、プラスな
前回↓記事でJulia入門して、もうちょっとアルゴリズムを書いてみたい!となりましたのでそういえば使ったことない遺伝的アルゴリズムをやってみました。 とりあえず簡単なもので試したいので、数理最適化の初歩であるナップサック問題を扱いました。とりあえず動きそうなものが出来たので良かったです。 Githubはこちら ナップサック問題ナップサック問題とは、以下のような組み合わせ最適化問題のことです。 この手の問題はNP困難です。ようするにパラメータが増えることで計算量が膨大に
会社によると思いますが、タスク管理がきちんとされていなくてストレスを感じることが多々あります。 いつの間にかアサインされている、そして気がつけば期限が迫っている タスクがどのPJTに紐づいているのか分からない 成果が不明瞭、何が目標なのかも決まっていない (なので)タスクの終わりが不明瞭 結構胃が痛くなるような働き方をしており、かなり口酸っぱくいっているのですが改善がなく、みんな不幸になっている気がするのである程度証拠を集めていこうと考えました。 また、今までは何
私は、医療系ベンチャーでAIエンジニアをしております。その中でも、特にドメインベースの特徴量を考えたり、臨床研究を行う上での統計解析をおこなったりしています。 一方で、前職では受託分析系の会社でデータサイエンティストをしておりました。その中で、たくさんの業界のデータ解析に関わらせていただきました。 過去の経歴等は↓リンクに書いています。 そんな私が医療データの分析業について他業界とは違うなと感じたことを書いていきます。 クライアントまず、大きく異なるのはクライアントで
少し前に、ぼけ~っとテレビを見ていたところ、以下のような番組に出会いました。 中身の概要は身体の左右性は胚発生の段階で、行動の左右性は経験的に決定するという、専門家の皆さんならばよくご存知である内容を分かりやすく伝えていました。(母は全然わからんって言ってましたがw。) 実のところ、私も学生時代の研究はこの形態形成の左右性に関わる研究をしていました。そこで、色々懐かしい気持ちになったので当時の記憶を絞り出して記事を書いてみます。 ※間違っていたらこっそりコメントで教えて
最近、懐かしい力学系を動かしたくなってJulia入門しました。 書き方はPythonやRに近く、思ったより早く動くモノが完成しました。勉強に使った書籍は↓です。 題材としては、力学系のカオス入門である二重振り子を選びました。最終的にグワングワン動く絵が描けて楽しかったです!なので、今回はこちらを紹介していきます。 例のごとく、レポジトリを公開しています。良かったらCloneして遊んでください! 二重振り子二重振り子は力学系のカオス解を得られる典型例としてよく使われます
こんにちは、データ分析の際に厄介者として扱われがちな外れ値について考えてきたいと思います。 外れ値とは、「データのメインボディから外れている値」のことをいいます。例えば、以下のようなデータがあるとき、25.5は怪しいと考えるのは自然だと思います。 $$ \mathcal{X} = \{5.6, 5.7, 5.4, 5.5, 5.2, 5.3, 5.8, 5.4, 5.6, 25.5 \} $$ このような、値が現れたときにどのように考えていくかを書いていきます。 ※こ
こんにちは、今回はデータ分析の際に厄介者として扱われがちな外れ値について考えてきたいと思います。 外れ値とは、「データのメインボディから外れている値」のことをいいます。例えば、以下のようなデータがあるとき、25.5は怪しいと考えるのは自然だと思います。 $$ \mathcal{X} = \{5.6, 5.7, 5.4, 5.5, 5.2, 5.3, 5.8, 5.4, 5.6, 25.5 \} $$ このような、値が現れたときにどのように考えていくかを書いていきます。
私は新卒入社を機に東京に引っ越し、約2年間住んでいました。そこで思ったことなどをこの記事では書いていこうと思います。 これまでの経歴は↓に書いています。 ちなみに、これまでの居住地の遷移は以下の通りです。 熊本:19年 広島:6年 東京:2年 熊本:~ 東京に住む前上の居住地遷移の通りですが、私は東京に住む前はずっと地方に住んでいました。東京に行ったのも旅行や就活くらいで、そこに住む人がどのような生活をしているのかもあまり想像できていませんでした。 正直、あま
現代において間違いなく、ブレイクスルーを起こし続けている技術の一つとして生成AIがあります。 生成AIができることの一つとして、画像生成があります。これは、文字を入力するだけでそれに近い内容の画像を生成します。下の画像は、Canvaのオンライン画像生成機能を使って出力した画像です。文字は「花火っぽいウニ」と入力しました。 写真とほぼ変わらないような解像度でかつ、入力した文字っぽい画像が確かにできています。生成AIはこのように、誰でも簡単にかつオーダーに最大限答えた魅力的な
今回は、私が遺伝統計学面白そう!!と思ったきっかけとなった本を紹介します。それはゲノムオデッセイという本です。 この本を知ったきっかけは、私は医学研究に関わる仕事をしているので、よく羊土社の本を買うのですが、そこで沢山オススメされていたからです。丁度本屋に立ち寄ったときに見つけたので衝動買いしました。 この本は、医学・遺伝子学の教授であるユアン・アンガス・アシュリーさんの経験を元に記されたノンフィクション作品です。循環器系の疾患にゲノム治療の視点から立ち向かっていき、従来
少し前に統計的仮説検定の謎シミュレーターに関する記事を書きました。 そのシミュレーターでは、指定した確率分布から標本を作成し、その標本同士で検定計算を行うということをしております。 確率分布は複数個用意する必要があるため、全てを愚直に書いていくと物凄いコード量になってしまうでしょう。そうなると、シンプルに実装が大変ですし、一部の処理を変更したいときに全部の確率分布分のコードを変更することになるのでかなりストレスになります。 実際、データサイエンスを学び始めた方は過去に作