図1 公共データベースSRAへのエントリー数を研究分野ごとに分類したもの
分類は登録の際につけられる“Study Type”ではなく,DBCLS SRA(
http://sra.dbcls.jp/search/)により独自に再分類したもの.
[Download] [hs_figure id=1&image=/wordpress/wp-content/uploads/2015/05/Bono-4.e008-Fig.1.png&caption=fig1-caption-text]
表1 次世代シークエンサーに関連する配列データのフォーマット
BAM形式およびBCF形式のほかはすべてテキスト形式であり,そのままではファイルサイズが大きくなるため,ふだんは圧縮されていることが多い
[Download] [hs_figure id=4&image=/wordpress/wp-content/uploads/2015/05/Bono-4.e008-Table-1.png&caption=fig4-caption-text]
次世代シークエンサーから直接に得るにしても,SRAなどの公共データベースからダウンロードするにしても,データ解析のハブはFASTQ形式の配列ファイルである(図2 データ解析のハブとなるFASTQ形式
FASTQ形式は次世代シークエンサーのメーカーや機種によらない配列データの標準的な形式になっている.現在,公共データベースSRAにおいてはSRA形式が用いられており,sratoolkitのfastq-dumpというソフトウェアによりFASTQ形式に変換する必要がある.今後は,BAM形式での登録が増えることも予想され,その場合はbedtoolsのサブコマンドbamtofastqなどを使いFASTQ形式に変換する必要がある.
[Download] [hs_figure id=2&image=/wordpress/wp-content/uploads/2015/05/Bono-4.e008-Fig.2.png&caption=fig2-caption-text]
リファレンス配列がすでにあるヒトや,ゲノム配列がすでに解読されているマウス,ショウジョウバエ,線虫などの多くの古典的なモデル生物においては,次世代シークエンサーにより得られたリード配列をリファレンスとなるゲノム配列に対して“貼りつけ”(マッピング)をすることからデータ解析がはじまる.このマッピングのためのソフトウェアとしては,Bowtie 図3 DAVIDによるGSEA法の解析の例
遺伝子発現のリファレンスデータセットであるRefEx(
http://refex.dbcls.jp/)にある,組織に特異的な発現パターンを示す遺伝子のDAVIDによるGSEA法の解析の例.肝臓に特異的に発現する遺伝子の特徴をGene OntologyのBiological Processのアノテーションを使い解析した.肝臓の機能として知られる代謝などの特徴が遺伝子レベルで抽出されている.
[Download] [hs_figure id=3&image=/wordpress/wp-content/uploads/2015/05/Bono-4.e008-Fig.3.png&caption=fig3-caption-text]