見出し画像

コムギとゲノム

コムギ研究の何が難しいってコムギだからなんですよね。
(画像はScience誌より: https://science.sciencemag.org/content/361/6403 )

のっけから身も蓋もない話を始めてしまいましたが、毎日これを痛感して、毎日これに対応するべく脳みそを絞っているので、ちょっと吐き出してみようと思います。
なお、これから書き連ねる内容(見方によるとデメリット)をもってしてなおコムギは魅力的であり、研究対象としてとても興味深いので、「じゃあ植物変えたらいいやん」っていうご指摘は承りません。悪しからず。

ゲノム

と聞いて、皆様は何を思い浮かべるでしょう?
高校生物の教科書には「生物種にとって必要な遺伝子の1セット」と書いてあります。これ、実はちょっとだけ間違っている。

ヒトのX染色体とY染色体が2本で1セットになっているように、ニコイチで完結する生物(2倍体)の場合は、上の定義は正しい。
ただ、世の中にはニコイチを2セット(4倍体)、3セット(6倍体)のように、複数セット持っている生物がいるわけです。
それらには、「1セット」の定義では説明がつかない現象がたくさんある。

なので大学以上で勉強する生物学の教科書には別の定義が書いてあります。

「生物が持つ遺伝情報の全体・総体」

つまりDNAに書かれている文字列全部
A, T, G, Cの4つの塩基が遺伝情報を記述する文字の全てです。
イネなら3億塩基、マウスは25億塩基、ヒトは30億塩基で記されている遺伝子やその他すべての遺伝情報を全部ひっくるめてゲノムと言います。
今日の記事でのゲノムはこっちの定義を使います。

ヒトゲノム計画、とか言ってヒトのDNAに記されている文字列(ATGCの組み合わせ)が全部解読されたのは2003年のこと。
イネゲノムの解読は2004年。

ゲノムがわかると何がいいというと、遺伝子の住所がわかる
どこにあるどの遺伝子がどんな働きをしているのかがわかる。
例えば、乳がんに関連があるとされている遺伝子BRCA1は、ヒトの17番染色体の21.31という住所にある、とか。
最近流行りの(?)遺伝子治療とかはゲノムが解読されているからこそできることなんですよね。
今やほぼ毎日何かしらのゲノムが解読され、発表されています。

コムギのゲノム

パン、パスタ、うどん、ラーメン、お好み焼き、たこ焼き、唐揚げ、天ぷら、フライ...アレルギーも深刻な問題ですが、そうでないなら1日で食べない方が難しいかもしれないコムギ。
イネ、トウモロコシに並ぶ3大穀類で、世界的にも重要な作物なのはいうまでもないと思います。

パン用のコムギとパスタ用のコムギは、生物的には違う種です。
パンコムギはゲノムを3セット持っている6倍体です。
パスタ用のマカロニコムギはゲノムが2セットの4倍体。

パンコムギのDNAは150億塩基からなります。ヒトの5倍!!!!
しかも、98%がATATATATATATATATATATみたいな同じ文字列の繰り返し。
似た遺伝子もたくさん持っており、解読がかなり難しかった。

そんなパンコムギゲノムの解読は2018年。つい最近です。

そうや、コムギやった。。。

そんな中、今日はちょっと遺伝子の機能を分類しようとしたわけです。
この遺伝子は光合成、この遺伝子は種を作る...とかそんな感じの分類。
ゲノムが解読されると、それぞれの遺伝子に、機能を分類するための記号であるGO term (ゴーターム、ジーオーターム)が振り分けられるので、それに従って分類していくわけですね。GO解析って言います。

目視で分類なんてできませんので、大抵ソフトウェアを使うんですけど、いつも使っているオンラインの解析ツールがなぜかうまく動かない。
で、仕方ないからRのパッケージであるtopGOを使おうと思ったわけです。

topGOの説明は長くなるので省きます。気になる人はリンクへどうぞ。

topGOを使う際に、一般的にはBioconductorに登録されているゲノム情報をダウンロードして住所録的に使います。

でも...コムギ...まだ入ってなかった...

仕方ないから、マニュアルでゲノム情報を入れてやろうとRでいじってたら、なんかエラーを吐く。。。
よくよく見るとGOtermがついてる遺伝子とついてない遺伝子がある。

そうや、コムギの遺伝子の機能全てはわかってなかったんやった...

ゲノム情報を住所録にするための処理を1回噛ませて、それからtopGOで使えるように成形して、自分の持ってるデータもそれに合わせて成形する...

このように、どんな解析をするにしても、イネやトウモロコシ、シロイヌナズナを扱うのに比べて、平均的に2手間くらいは余計にかかる。

それでもゲノム解読前に比べると雲泥の差で楽チンなんですが。。。
(D論で扱ってる野生コムギはゲノム解読されてないから...)

あと、ゲノムサイズが大きすぎて解析にかなり時間かかるのも難点。
ちょっとファイルパス書き間違えてやり直したら2週間とかざらだから。

毎日「そうや、コムギやった...」って呟きながら解析方法を模索してます。
それはそれで楽しいんですけどね。

今日は形を整えて、GO解析用のスクリプト書いたら時間切れだったので、明日は実際にGO解析回してみる予定。
うまくいくといいなー。

【追記: 20200131】
コムギのゲノムサイズの0が一つ、いつの間にやら消えてましたので、修正しました。ヒトゲノムが3Gbpで30億塩基対、コムギは15Gbpで150億塩基対です。


この記事が気に入ったらサポートをしてみませんか?