Ash

データサイエンティスト?遺伝子情報をプログラムで解析するのが仕事です。プログラムは、R…

Ash

データサイエンティスト?遺伝子情報をプログラムで解析するのが仕事です。プログラムは、Ruby, MySQL, Javascript (D3.js), Scala, R, Python といろいろ。興味のあることが多くて発散気味。データの視覚化が得意。

マガジン

  • R を使ったデータ処理と視覚化

    R (tidyverse) を使ったデータ処理と視覚化についての記事のまとめです。

最近の記事

ggplot2: 複数のデータセットの棒グラフを1枚の図にまとめる方法

複数のデータセットがあった場合、データセットごとに色を変えて区別することで、棒グラフを1つの図にまとめる方法の紹介です。 具体的には、下図のような棒グラフです。2つのシーズン (season) ごとにデータセットがあり、シーズンを色で区別することで、1枚の図にまとめています。 データセットごとに異なる色で棒グラフを作成ggplot2 において、データセットごとに塗り分けるコードは単純です。データセット1つの場合と、ほとんど変わりません。 g <- ggplot(plot

    • 前シーズン (Chill 2023) の振り返り

      新シーズン (Fresh Season 2024) も始まって、1ヶ月が経過したところで、 前シーズン (Chill Season 2023) のデータを振り返ってみました。 ナワバリのブキ使用率 (Chill 2023)12月から、さらに9つのブキが追加されたため、ブキの種類は110個になりました。前回と同様に縦に並べて棒グラフを作成しました。 スプラマニューバーコラボが、トップになっていました。確かによく見かける気はしていましたが、ずっと1位だった金モデより多く使われ

      • 棒グラフの作成までの詳細(コードを含む)

        前回作成した棒グラフデータのダウンロードから、データの整形、棒グラフ作成までの詳細です。 これまでの解説では、必須の部分のみの紹介にとどめ、全体のコードは省略していました。有料記事となりますが、この記事の最後に、まとめたコードをダウンロードできるようにしています。 R 言語を使ったプログラムの練習に使えるかと思います。練習用データとして、スプラトゥーン3の対戦データ (stat.ink のデータ) を使用しています。 ゲームとプログラミングに興味のあるかたは身近なデータで

        有料
        300
        • ナワバリのブキ使用率を棒グラフで確認

          次のシーズン (Fresh 2024) の情報が出たところで、これまでのシーズンのデータを振り返ってみたいと思います。棒グラフの作成方法は、前回までの記事を参照してください。 Drizzle 2022最初のシーズン(秋)です。シャープマーカーとラクトが人気だった印象があります。 Chill 20222番目のシーズン(冬)です。金モデが登場して人気になってます。ラクトは弱体化もあって、少し減ってます。シャープマーカーは以前として多いです。この頃から、スプラシューターコラボも

        ggplot2: 複数のデータセットの棒グラフを1枚の図にまとめる方法

        マガジン

        • R を使ったデータ処理と視覚化
          22本

        記事

          ggplot2: 横向きの棒グラフを作成

          前回までに作成した棒グラフは、通常の、下から上に棒が伸びた棒グラフでした。今回は、その縦と横を入れ替えて、左から右に伸びる横向きの棒グラフを紹介します。 横向きの棒グラフは aes()の指定を入れ替える実は、横向きの棒グラフを作成するのは簡単です。最初の ggplot() の引数に aes() を指定しますが、この中で、x 軸の y 軸に使用するデータを指定していました。この指定を入れ替えるだけです。 例に用いるデータは、前回までと同じ top10 のデータです。 >

          ggplot2: 横向きの棒グラフを作成

          ggplot2: 棒グラフの見た目を変更(2)、項目によって色を変える

          前回、x軸の目盛りを日本語に変えて、文字を回転させるところまでを解説しました。今回は、棒グラフの色を項目によって変更する方法です。 x軸の項目によって異なる色を設定する自動的に割り振られる色を使うのであれば、方法としては単純です。最初の ggplot() 実行時の引数 aes() に、x, y に加えて「fill = 変数」を設定するだけです。 x軸でも使用している buki ごとに指定したいため、「ggplot(plot_data, aes(buki, percent

          ggplot2: 棒グラフの見た目を変更(2)、項目によって色を変える

          ggplot2: 棒グラフの見た目を変更(1)

          前回作成した棒グラフはシンプルなので、見た目を変更してみましょう。ggplot2 で見た目を変更するには、これまでの ggplot() + geom_col() にプラスで続けて theme() (テーマ関数)で行います。 全体は、「ggplot() + geom_col() + theme()」という形になります。 目盛りに日本語を使用する+ラベルを回転使用するデータは、前回と同じです。 > top10# A tibble: 10 × 4 weapon

          ggplot2: 棒グラフの見た目を変更(1)

          ggplot2: 棒グラフを値の高い順に並べる

          前回の続きです。作成した棒グラフを値の高い順に並べる方法を紹介します。 棒グラフに使用したデータは、下記のようなテーブルです。テーブル上では、割合(percentage)の多い順に並んでいるのに、棒グラフがこの通りに並んでくれないのは、x 軸として使用している weapon の順(アルファベット順)に並ぶからです。 > top10# A tibble: 10 × 4 weapon total percentage buki <chr>

          ggplot2: 棒グラフを値の高い順に並べる

          ggplot2: 棒グラフの作成 (geom_col)

          ggplot2 を使って、棒グラフを作成する例を紹介します。ggplot2 では、棒グラフを作成するための関数として、 geom_bar() と geom_col() があります。geom_bar は、リストの要素を集計してくれるので、単語のリストなどを棒グラフにする場合に便利です。一方、すでに集計結果があるのであれば、 geom_col を使用します。 geom_col を使った棒グラフここでは、すでに下記のような集計結果がある場合を例として使用します。以前のパイチャート

          ggplot2: 棒グラフの作成 (geom_col)

          R: インストールしたパッケージのバージョンを確認 「sessionInfo()」

          現在、使用しているパッケージ(ライブラリ)のバージョンを確認したいことがあります。その時に使うコマンドが、 sessionInfo() です。 sessionInfo()確認したいパッケージを library(tidyverse) のように、読み込んだ状態で、 sessionInfo() を入力すると、ロードされているパッケージの名前と、バージョンが表示されます。(下記は、 tidyverse と edgeR を読み込んだものです。) > sessionInfo()R v

          R: インストールしたパッケージのバージョンを確認 「sessionInfo()」

          ggplot2: オブジェクトの構造を表示する (str 関数)

          R では、世界中のユーザーや研究者が提供したパッケージを、追加でインストールして、利用することができます。パッケージには複数の関数が含まれており、それらを使用して、データの解析ができます。 解析結果として出力されたオブジェクトが、どのようなデータを含んでいるか確認したい場合があります。その時、 str() 関数を用いると、オブジェクトの中身の構造を見ることができます。 str() 関数でオブジェクトの構造を表示例えば、シングルセル RNA-seq (scRNA-seq)

          ggplot2: オブジェクトの構造を表示する (str 関数)

          ggplot2: y = x の補助線を引く

          下記のような散布図があったとします。このうち、変動していない遺伝子は、normal (x軸)と tumor (y軸) の値が同じ、つまり、 y = x になっている点ということです。これを判断しやすいように、 y = x の補助線を引く例を紹介します。 geom_abline() で直線を追加y = x の直線を追加するには、 geom_point() にプラスで続けて、 geom_abline() を追加します。 g + geom_point(color = "#969

          ggplot2: y = x の補助線を引く

          ggplot2: MA プロットの色を条件で塗り分け

          今回は、MAプロットを例に、条件にしたがって異なる色で塗り分ける方法を紹介します。流れとしては、以前紹介したボルケーノプロットの場合と同様です。塗り分けたい条件を満たすデータセットに分けておき、 geom_point() を複数回実行して重ね合わせます。 条件を満たすデータセットを抽出発現変動している遺伝子の条件を、 p-value < 0.05 とします。その上で、増加しているものについては赤、減少している遺伝子については青に塗り分けます。変動していないものについては、グ

          ggplot2: MA プロットの色を条件で塗り分け

          ggplot2 を使って MA プロットを作成

          遺伝子発現の変動を表示する方法として、ボルケーノプロットを紹介しましたが、もう1つよく使われるプロットとして、MAプロットがあります。もともと、マイクロアレイのデータを表示するのに用いられていましたが、RNA-seq のデータにも用いられます。 MA プロットに用いるデータ遺伝子発現の変動をスコア化したデータは、logCPM, logFC, p-value などの値を含みます。このうち、MA プロットに用いるデータは、 logCPM と logFC です。(一方、ボルケーノ

          ggplot2 を使って MA プロットを作成

          ボルケーノプロット:log変換の意味

          これまでに紹介したボルケーノプロットでは、 p-value をそのまま用いず、 log変換してプロットしています。その意味を解説します。 log変換しないとどうなるかまず、log変換しないとどうなるかを見てみましょう。-log10() の部分を削除すると、コードは下記のようになります。 g <- ggplot(de_result, aes(logFC, PValue))g + geom_point() + geom_vline(xintercept = c(-1, 1)

          ボルケーノプロット:log変換の意味

          ggplot2: デフォルトのパレットの色

          ggplot2 を使って、ボックスプロットや棒グラフ、パイチャートを作成した時、対象ごとに色をつけるように設定すると、自動的に選ばれた色が使用されます。 これらと同じ色を自分でも使いたかったり、16進数ではどのような値になるのか確認したい場合もあると思います。このパレットの値を取得する方法の紹介です。 hue_pal() 関数でパレットを生成デフォルトで使用されているパレットは、scales パッケージに含まれる hue_pal() 関数で生成することができます。 hu

          ggplot2: デフォルトのパレットの色