図1 集団ゲノミクスに用いるデータ
(a)ショートリードの参照配列へのマッピングによる1塩基多型(SNP)の同定.
(b)SNPのデータセット(マトリックス)の例.
[Download] [hs_figure id=1&image=/wordpress/wp-content/uploads/2017/08/Tsuchimatsu-6.e006-Fig.1.png&caption=fig1-caption-text]
このSNPのデータセットを用いることにより,たとえば,それぞれの個体が互いにどのくらい近縁かを簡単に計算することができる.ある2つの系統を抽出し,SNPを数えてゲノムの全長で割り算をすると,ゲノムにおいて何%の塩基に置換がみられるかがもとめられる.この値はより近縁であれば小さく,より遠縁であれば大きくなる.すべての個体の組合せについてこの計算を行い平均した値は塩基多様度とよばれ,その種や集団の遺伝的な多様性の基本的な指標になる.塩基多様度は,たとえば,シロイヌナズナで約0.5%,ヒトでは約0.1%であることが知られている.
このような個体のあいだの近縁度の全体像をおおまかに把握するため,ゲノムの類似度を主成分分析などの手法により2次元の平面に投影することがよく行われる.たとえば,ヨーロッパにおけるヒトの集団の遺伝的な類縁度を約3000人,500,568遺伝マーカーの多型データを用いて解析し,主成分分析を用いて可視化した研究がある図2 コアレセント理論のイメージ
コアレセント理論は,得られたDNA配列の試料(ここでは5本の配列)について,その共通の祖先が何世代まえにさかのぼるかについて理論的な期待値をあたえる.合着までの平均期待時間
Tkは,個体数の時間的な変化,集団のあいだの分化,自然選択などにより変化する.
[Download] [hs_figure id=2&image=/wordpress/wp-content/uploads/2017/08/Tsuchimatsu-6.e006-Fig.2.png&caption=fig2-caption-text]
コアレセント理論の核となるコンセプトは,得られたDNA配列の合着が何世代まえにさかのぼるか理論的な期待値がもとめられることである.そして,合着が何世代まえにどれだけ起こったかは,個体数の変動,自然選択,集団構造などの影響をうけて変化する.つまり逆に考えれば,試料として得られたDNA配列の合着がいつどれだけ起こったかを調べれば,過去の集団における個体数の変動などを推定できることになる.おおまかには,集団のサイズが大きいときには合着は相対的に少なく,集団のサイズが小さいときにはより多くの合着が起こる.これは,あるタイミングで個体数が急に1個体に減少した状況を考えるとわかりやすい.すべての試料は最終的に必ずそこで合着するはずである.また,過去のある時期に集団が2つの分集団に分かれていたとすると,その期間の分集団のあいだにおいて合着は少ないことが期待される.
最近,このようなコアレセント理論による個体数の動態の推定を,多数の個体のゲノムワイドな遺伝子多型のデータにもとづき行うアルゴリズムが提案された.MSMC(multiple sequentially Markovian coalescent)とよばれるこの手法は図3 ゲノムワイド関連解析の概念図
(a)野生の集団から多数の個体を得て,表現型(花弁の長さ)とSNPマーカーとの相関関係をゲノムワイドに探索する.
(b)GWASの典型的なプロット(マンハッタンプロット).おのおのの点はSNPを示し,SNPと表現型との相関関係が強い領域において高いピークがみられる.このピークの付近に原因遺伝子が存在すると予想される.
[Download] [hs_figure id=3&image=/wordpress/wp-content/uploads/2017/08/Tsuchimatsu-6.e006-Fig.3.png&caption=fig3-caption-text]
ゲノムワイド関連解析は,表現型の変異の原因となる多型と,そのごく近傍のSNPマーカーとのあいだに連鎖不平衡のあることを利用している.連鎖不平衡とは,SNPマーカーや表現型の変異の原因となる多型など2つの座位のあいだにみられる非独立(相関)関係のことである.連鎖不平衡は座位のあいだの組換えにより解消される.一般に,染色体における距離の近い座位のあいだの組換えはまれであるため,近傍の座位のあいだの連鎖不平衡は強くなる傾向がある.SNPマーカーが互いにどのくらい近くにあると連鎖不平衡がみられるかは種により大きく異なる.シロイヌナズナにおいてはおおむね10 kb以内であれば連鎖不平衡のみられることがわかっている.このことはすなわち,シロイヌナズナにおいてはゲノムワイド関連解析により理論上は10 kb程度の染色体の領域まで原因遺伝子座をしぼり込むことができることを意味する.
図4 集団構造がゲノムワイド関連解析において偽陽性を生じる例
ヒトの身長の変異にかかわる遺伝子を探索することを考える.おおむね日本人は背が低くオランダ人は背が高い.日本人の集団とオランダ人の集団とはまったくランダムには混ざりあっていないため,多くの遺伝子座において対立遺伝子の頻度に違いがみられる.結果として,真の原因遺伝子座以外の遺伝子座においても身長と相関がみられる.
[Download] [hs_figure id=4&image=/wordpress/wp-content/uploads/2017/08/Tsuchimatsu-6.e006-Fig.4.png&caption=fig4-caption-text]
このような集団構造の効果による偽陽性にくわえ,ゲノムワイド関連解析には偽陰性の問題もある.偽陰性は,要は検出力の不足ということであり,その要因もさまざまである.たとえば,表現型にかかわる遺伝変異の集団における頻度がごく低いときや,その遺伝子が表現型におよぼす効果が小さいとき,あるいは,同じ表現型をもつ個体であっても別の遺伝子の変異が原因である場合などは,ゲノムワイド関連解析において検出されにくくなると考えられる.一般に,試料の数を増やすことにより検出力は上昇するものの,表現型の原因となる突然変異の頻度が極端に低いときなどは検出がむずかしいだろう.