FANTOM5

2019/03/29

Web Site: http://fantom.gsc.riken.jp/5/
HTTPS Site: https://dbarchive.biosciencedbc.jp/data/fantom5/

ヒトやマウスの様々な細胞種における転写産物転写因子活性に関するデータベース

README 目次

  1. ダウンロードデータの構成
  2. ダウンロードデータの説明
  3. 本データベースの利用許諾
  4. 更新履歴
  5. 参考文献
  6. 連絡先

1. ダウンロードデータの構成

  1. README
  2. HeliscopeCAGE sequencing, Delve mapping and CAGE TSS aggregation
  3. CAGE peaks
  4. Pathway enrichment and co-expression cluster analysis
  5. Enhancers
  6. Sample ontology, GOstat and ontology term enrichment
  7. Results of de-novo and Motif activity analyses
  8. CAGE peaks identified as true TSS by TSS classifier
  9. (reprocessed)CAGE_peaks_expression
  10. (reprocessed)HeliscopeCAGE sequencing, Delve mapping and CAGE TSS aggregation
  11. (reprocessed)CAGE peaks
  12. CAGE_peaks_annotation
  13. (reprocessed)CAGE_peaks_annotation
  14. (reprocessed)pooled_ctss
  15. DRA_accession_tables
  16. Gene_level_expression
  17. Summary_CAGEScan
  18. (reprocessed)Enhancers
  19. (reprocessed)DPI_clustering
トップに戻る

2. ダウンロードデータの説明

2.1 README

データ名 README
データ内容 「FANTOM5」のダウンロードデータについて説明したHTMLファイル。
ダウンロードファイル名 README.html (日本語)
トップに戻る

2.2 HeliscopeCAGE sequencing, Delve mapping and CAGE TSS aggregation

データ名 HeliscopeCAGE sequencing, Delve mapping and CAGE TSS aggregation
データ内容の説明

FANTOM5プロジェクトにおいて、HeliScopeCAGE法を使って得られた、 経時変化のデータおよびある時点のスナップショットのデータ。
「basic」ディレクトリ以下のサブディレクトリに含まれる各ファイルの内容は、下記の通りである。

 

末尾に「CAGEScan」がつくサブディレクトリ(humanのみ)

00_.assay_sdrf.txt:
各サンプルについての実験情報をタブ区切り形式で記載したもの。
*.bam:
リード配列を参照配列にマッピングした結果をバイナリ形式で表現したファイル (BAM形式)。
*.bam.bai:
BAM形式のファイルに対するインデックスファイル。
*.3prime.fq.gz:
CAGEscanタグの3'末端側の配列データファイル(FASTQ形式)。
*.5prime.fq.gz:
CAGEscanタグの5'末端側の配列データファイル(FASTQ形式)。
*.clusters.bed.gz
CAGEscanによるクラスタリング結果を標準的なBED12形式で記載したファイル。4カラム目はクラスタの代表となるCAGEタグ名を、5カラム目はクラスタを構成するペア数を表す。
*.pairs.bed.gz
CAGEscan法によってマッピングされたペアのデータで、標準的なBED12形式で記載されている。4カラム目はリード配列のペア名を、5カラム目は2つのリード配列のマッピングクオリティの合計値を表す。

 

上記以外のサブディレクトリ

00_.assay_sdrf.txt:
各サンプルについての実験情報をタブ区切り形式で記載したもの。
*.bam:
リード配列を参照配列にマッピングした結果をバイナリ形式で表現したファイル (BAM形式)。
*.bam.bai:
BAM形式のファイルに対するインデックスファイル。
*.ctss.bed.gz:
CAGEタグの解析で同定した転写開始点の情報をBED形式で記載したファイル。
*.rdna.fa.gz:
リボソームDNAの配列データファイル (FASTA形式)。

 

データファイル fantom5_new_experimental_details.zip (273 KB)
basic (3.7 TB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
Extract name 実験の内部ID
FF ontology FANTOMで定義されたオントロジーのID
Description 実験の説明
Catalog ID RNAのカタログID
Category 実験のカテゴリ
Species 生物種 (ヒトまたはマウス)
Sex 性別
Age 年齢
Developmental stage 発達段階
Tissue 組織
Cell lot 細胞のロット番号
Cell type 細胞の種別
Catalogue ID 細胞のカタログ番号
Collaboration 共同研究先
Provider 細胞の提供元
Extraction protocol RNA抽出の実験手法
Material type RNAサンプルの種別
RNA tube RNAチューブの内部ID。Extract nameと同じ。
Sample name サンプル名
RNA extraction RNA抽出の実験手法
RNA ID RNAの内部ID
Comment on RNA RNAに関するコメント
ratio_260/230 サンプルの吸光度比(260nm/230nm)
ratio_260/280 サンプルの吸光度比(260nm/280nm)
Concentration RNA濃度
RNA Integrity number RIN値
lsid サンプルグループのID
Library protocol ライブラリ化の実験手法
Library ID ライブラリID
Sequence protocol 配列決定の手法
Machine name マシン名
Run name ラン名
Flowcell channel フローセルのチャネル
Alignment protocol 配列マッピングの手法
BAM file リード配列の参照配列へのマッピング結果 (BAM形式)
BAI file BAMファイルのインデックスファイル
CAGE TSS file CAGEタグの解析で同定した転写開始点 (BED形式)
Ribosomal DNA sequence file リボソームDNAリピートユニットにヒットした配列のデータファイル(FASTA形式)
Barcode RNAサンプル識別のためのバーコード配列 
トップに戻る

2.3 CAGE peaks

データ名 CAGE peaks
データ内容の説明

CAGE法で計測したRNA転写開始活性に関するピーク領域のデータ。

データファイル CAGE_peaks (4.1 GB)
トップに戻る

2.4 Pathway enrichment and co-expression cluster analysis

データ名 Pathway enrichment and co-expression cluster analysis
データ内容の説明

発現データに対して共発現クラスタ解析を行い、各クラスタについてGene OntologyやPathwayでエンリッチメント解析を行った。

データファイル Co-expression_clusters (86 MB)
トップに戻る

2.5 Enhancers

データ名 Enhancers
データ内容の説明

Phase1およびPhase2において、CAGE法を用いてRNAの転写量を計測し、同定したヒトおよびマウスのエンハンサーのデータ。

データファイル Enhancers (160 MB)
トップに戻る

2.6 Sample ontology, GOstat and ontology term enrichment

データ名 Sample ontology, GOstat and ontology term enrichment
データ内容の説明

Phase 2.0で作製したサンプルを表現するためのオントロジー。このオントロジーは、Cell Ontology、Disease Ontology およびPan-vertebrate Uberon Ontology の上に構築したものであり、ファイルはOBO形式で提供している。

データファイル Ontology (1.8 MB)
トップに戻る

2.7 Results of de-novo and Motif activity analyses

データ名 Results of de-novo and Motif activity analyses
データ内容の説明

転写開始点領域近傍における転写因子結合部位モチーフの解析結果。

  • HOMER等による de novoモチーフ解析
  • de novo モチーフや既知転写因子結合モチーフ(JASPARに登録されているもの)と、CAGEで測定された転写開始活性との相関に関する有意性
データファイル Motifs (6.2 GB)
トップに戻る

2.8 CAGE peaks identified as true TSS by TSS classifier

データ名 CAGE peaks identified as true TSS by TSS classifier
データ内容の説明

CAGE法で測定した転写開始点の各ピークについて、近傍配列が既知TSSの特徴を持つ(TSS-like)かどうかを評価したもの。ファイル「TSS_human.bed.gz」と「TSS_mouse.bed.gz」は、同定した転写開始点のデータを含む。

データファイル TSS_classifier (32 MB)
トップに戻る

2.9 (reprocessed)CAGE_peaks_expression

データ名 (reprocessed)CAGE_peaks_expression
データ内容の説明

CAGE法で計測したヒト及びマウスのRNA転写活性に関するピーク領域の発現情報。新たな参照配列(hg38/mm10)を使って再度マッピングを行った。

データファイル (reprocessed)CAGE_peaks_expression (Homo sapiens) (1.8 GB)
(reprocessed)CAGE_peaks_expression (Mus musculus) (1.0 GB)
トップに戻る

2.10 (reprocessed)HeliscopeCAGE sequencing, Delve mapping and CAGE TSS aggregation

データ名 (reprocessed)HeliscopeCAGE sequencing, Delve mapping and CAGE TSS aggregation
データ内容の説明

FANTOM5プロジェクトにおいて、HeliScopeCAGE法を使って得られた、 経時変化のデータおよびある時点のスナップショットのデータ。phase2.0で得られたヒト及びマウスのリード配列に対して、新たな参照配列(hg38/mm10)を使って再度マッピングを行った。
「basic」ディレクトリに含まれる各ファイルの内容は、下記の通りである。

 

 

00_.assay_sdrf.txt:
各サンプルについての実験情報をタブ区切り形式で記載したもの。
*.bam:
リード配列を参照配列にマッピングした結果をバイナリ形式で表現したファイル (BAM形式)。
*.bam.bai:
BAM形式のファイルに対するインデックスファイル。
*.ctss.bed.gz:
CAGEタグの解析で同定した転写開始点の情報をBED形式で記載したファイル。
*.rdna.fa.gz:
リボソームDNAの配列データファイル (FASTA形式)。

 

データファイル fantom5_rp_exp_details.zip (240KB)
(reprocessed)basic (Homo sapiens) (1.4TB)
(reprocessed)basic (Mus musculus) (894 GB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
Extract name 実験の内部ID
FF ontology FANTOMで定義されたオントロジーのID
Description 実験の説明
Catalog ID RNAのカタログID
Category 実験のカテゴリ
Species 生物種 (ヒトまたはマウス)
Sex 性別
Age 年齢
Developmental stage 発達段階
Tissue 組織
Cell lot 細胞のロット番号
Cell type 細胞の種別
Catalogue ID 細胞のカタログ番号
Collaboration 共同研究先
Provider 細胞の提供元
Extraction protocol RNA抽出の実験手法
Material type RNAサンプルの種別
RNA tube RNAチューブの内部ID。Extract nameと同じ。
Sample name サンプル名
RNA extraction RNA抽出の実験手法
RNA ID RNAの内部ID
Comment on RNA RNAに関するコメント
ratio_260/230 サンプルの吸光度比(260nm/230nm)
ratio_260/280 サンプルの吸光度比(260nm/280nm)
Concentration RNA濃度
lsid サンプルグループのID
Library protocol ライブラリ化の実験手法
Library ID ライブラリID
Sequence protocol 配列決定の手法
Machine name マシン名
Run name ラン名
Flowcell channel フローセルのチャネル
Alignment protocol 配列マッピングの手法
BAM file リード配列の参照配列へのマッピング結果 (BAM形式)
BAI file BAMファイルのインデックスファイル
CAGE TSS file CAGEタグの解析で同定した転写開始点 (BED形式)
Ribosomal DNA sequence file リボソームDNAリピートユニットにヒットした配列のデータファイル(FASTA形式)
トップに戻る

2.11 (reprocessed)CAGE peaks

データ名 (reprocessed)CAGE peaks
データ内容の説明

CAGE法で計測したヒト及びマウスのRNA転写開始活性に関するピーク領域のデータ。新たな参照配列(hg38/mm10)を使って再度マッピングを行った。

データファイル (reprocessed)CAGE_peaks (Homo sapiens) (22MB)
(reprocessed)CAGE_peaks (Mus musculus) (16.5MB)
トップに戻る

2.12 CAGE_peaks_annotation

データ名 CAGE_peaks_annotation
データ内容の説明

CAGE法で計測したヒト及びマウスのRNA転写開始活性に関するピーク領域のアノテーション情報。

データファイル CAGE_peaks_annotation (195 MB)
トップに戻る

2.13 (reprocessed)CAGE_peaks_annotation

データ名 (reprocessed)CAGE_peaks_annotation
データ内容の説明

CAGE法で計測したヒト及びマウスのRNA転写開始活性に関するピーク領域のアノテーション情報。新たな参照配列(hg38/mm10)に対して再度マッピングを行った。

データファイル (reprocessed)CAGE_peaks_annotation (Homo sapiens) (19MB)
(reprocessed)CAGE_peaks_annotation (Mus musculus) (14MB)
トップに戻る

2.14 (reprocessed)pooled_ctss

データ名 (reprocessed)pooled_ctss
データ内容の説明

phase1.0から2.0までに使用したヒト及びマウスの全CAGEタグ配列のマッピング情報。新たな参照配列(hg38/mm10)を使って再度マッピングを行った。

データファイル (reprocessed)pooled_ctss (Homo sapiens) (6.5GB)
(reprocessed)pooled_ctss (Mus musculus) (4.5GB)
トップに戻る

2.15 DRA_accession_tables

データ名 DRA_accession_tables
データ内容の説明

DRA (http://trace.ddbj.nig.ac.jp/dra/index.html)に登録されたFANTOM5サンプルデータのアクセション番号リスト。

データファイル fantom5_dra_accession_tables.zip (64 KB)
DRA_accession_tables (251KB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
Library ID 核酸配列ライブラリのID
FF ontology FANTOMで定義されたオントロジーのID
DRA sample accession number DRAのサンプルアクセション番号
DRA experiment accession number DRAの実験アクセション番号
DRA run accession number DRAのランアクセション番号
DRA analysis accession number (BAM) DRAの解析アクセション番号(マッピング結果、BAMファイル)
DRA analysis accession number (BED) DRAの解析アクセション番号(転写開始点の情報、BEDファイル)
Experiment method 実験手法
トップに戻る

2.16 Gene_level_expression

データ名 Gene_level_expression
データ内容の説明

ヒト及びマウスの各サンプルにおいて、同じ遺伝子にマッピングされるGAGEタグの数を集計した表です。タグ数を単純集計した表(counts)とRLE(相対対数発現量)法で計算したTPM(Transcripts Per Million)の表(tpm)があります。

データファイル gene_level_expression (415MB)
トップに戻る

2.17 Summary_CAGEScan

データ名 Summary_CAGEScan
データ内容の説明

CAGEscan法による実験結果のサマリを核酸配列ライブラリ毎にまとめたもの。

データファイル fantom5_summary_cagescan.zip (4.64 KB)
Summary_CAGEScan (62KB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
Library ID 核酸配列ライブラリのID
Raw 計測されたリード数
Removed by extraction 抽出により削除したリード数
Extracted 解析により抽出したリード数
Removed by artifacts 削除した人工リード(artifact)数
Filtered for artifact artifactを削除した後のリード数
Removed by rRNA rRNAとして削除したリード数
Filtered for rRNA rRNAを削除した後のリード数
Non alignment ゲノムにマッピングできなかったリード数
Genome mapped ゲノムにマッピングされたリード数
Duplicated 重複のあるリード数
Uniquely mapped 重複のないリード数
Inproperly mapped pairs ゲノムに適切にマッピングされなかったリードのペア数
Properly mapped pairs ゲノムに適切にマッピングされたリードのペア数
Total pairs ペアの総数
Exon エクソンにあるペア数
Intergenic エクソンの間にあるペア数 
Promoter プロモーターにあるペア数
トップに戻る

2.18 (reprocessed)Enhancers

データ名 (reprocessed)Enhancers
データ内容の説明

CAGE法を用いてRNAの転写量を計測し、同定したヒトおよびマウスのエンハンサーのデータ。新たな参照配列(hg38/mm10)を用いて解析し直した。

データファイル (reprocessed)enhancer (Homo sapiens) (101MB)
(reprocessed)enhancer (Mus musculus) (7.3MB)
トップに戻る

2.19 (reprocessed)DPI_clustering

データ名 (reprocessed)DPI_clustering
データ内容の説明

ヒトおよびマウスの再マッピングデータ(data-8へのリンク)に対してDPI(Decomposition-based peak identification)法を用いてピークを同定した結果(BED形式ファイル)。

*.tc.bed.gz:
オリジナルの定義によるCAGEタグのクラスタデータ。
*.tc.decompose_smoothing_merged.bed.gz:
DPIによる全てのピークデータ。
*.tc.decompose_smoothing_merged.ctssMaxCounts3.bed.gz:
ピークとして許容できるデータを抽出したもの。
*.tc.decompose_smoothing_merged.ctssMaxCounts11_ctssMaxTpm1.bed.gz:
ピークとしてより確からしいと考えられるデータ。
データファイル (reprocessed)DPI_clustering (Homo sapiens) (150MB)
(reprocessed)DPI_clustering (Mus musculus) (124MB)
トップに戻る

3. 本データベースの利用許諾

利用許諾更新日: 2015/12/07

本データベースは、以下で定める利用許諾に基づきご利用いただくことができます。 本利用許諾は、本データベース利用における許諾内容、及び利用者が従うべき条件を定めています。


Creative Commons License

本データベースの利用許諾は、 クリエイティブ・コモンズ 表示4.0 国際の定める利用許諾です。
本データベースのクレジットは、 ”FANTOM5 © 理化学研究所 licensed under CC表示4.0 国際”ですので、 利用にあたり必ず表示してください。

クリエイティブ・コモンズ 表示4.0 国際の概要は こちらです。 具体的な許諾条項は こちらをご覧ください。

本データベースにおいて、以下の条件に従う限り許諾されている事項:

  1. 本データベースの全部または一部に自由にアクセスし、データを取得することができます。
  2. 本データベースの全部または一部のデータを自由に再配布することができます。
  3. 本データベースの全部または一部のデータを利用した、データベースなどの翻案物を自由に作成し、配布することができます。

 

本利用許諾に基づいて利用する際に従うべき条件:

  1. 本データベースの全部または一部、あるいは翻案物の配布に際しては、本データベースの作成者のクレジットを表示しなければなりません。
  2. 本利用許諾で許諾されていない事項については、以下のデータベース作成者に連絡をとり、利用許諾を求める必要があります。

データベース作成者連絡先:
E-mail: fantom-help[at]riken[dot]jp

トップに戻る

4. 更新履歴

更新日更新内容
2019/03/29 アーカイブ V3 をリリース
以下の5つのデータを新規追加。 以下の9つのデータを更新。
2017/03/08 データベースの説明のページにおいて、「作成者所属」および「データベースの説明」を更新。
2016/12/20 アーカイブ V2 をリリース
以下の6つのデータを新規追加。 以下の2つのデータを更新。
2015/12/07 生命科学系データベースアーカイブにてダウンロードデータ公開開始
(アーカイブ V1)
2014/03/27 FANTOM5 (http://fantom.gsc.riken.jp/5/) で公開開始
トップに戻る

5. 参考文献

FANTOM Consortium and the RIKEN PMI and CLST (DGT), Forrest AR, Kawaji H, Rehli M, Baillie JK, de Hoon MJ, Lassmann T, Itoh M, Summers KM, Suzuki H, Daub CO, Kawai J, Heutink P, Hide W, Freeman TC, Lenhard B, Bajic VB, Taylor MS, Makeev VJ, Sandelin A, Hume DA, Carninci P, Hayashizaki Y.
A promoter-level mammalian expression atlas.
Nature. 2014 Mar 27;507(7493):462-70. doi: 10.1038/nature13182.
PMID: 24670764

Arner E, Daub CO, Vitting-Seerup K, Andersson R, Lilje B, Drabløs F, Lennartsson A, Rönnerblad M, Hrydziuszko O, Vitezic M, Freeman TC, Alhendi AM, Arner P, Axton R, Baillie JK, Beckhouse A, Bodega B, Briggs J, Brombacher F, Davis M, Detmar M, Ehrlund A, Endoh M, Eslami A, Fagiolini M, Fairbairn L, Faulkner GJ, Ferrai C, Fisher ME, Forrester L, Goldowitz D, Guler R, Ha T, Hara M, Herlyn M, Ikawa T, Kai C, Kawamoto H, Khachigian LM, Klinken SP, Kojima S, Koseki H, Klein S, Mejhert N, Miyaguchi K, Mizuno Y, Morimoto M, Morris KJ, Mummery C, Nakachi Y, Ogishima S, Okada-Hatakeyama M, Okazaki Y, Orlando V, Ovchinnikov D, Passier R, Patrikakis M, Pombo A, Qin XY, Roy S, Sato H, Savvi S, Saxena A, Schwegmann A, Sugiyama D, Swoboda R, Tanaka H, Tomoiu A, Winteringham LN, Wolvetang E, Yanagi-Mizuochi C, Yoneda M, Zabierowski S, Zhang P, Abugessaisa I, Bertin N, Diehl AD, Fukuda S, Furuno M, Harshbarger J, Hasegawa A, Hori F, Ishikawa-Kato S, Ishizu Y, Itoh M, Kawashima T, Kojima M, Kondo N, Lizio M, Meehan TF, Mungall CJ, Murata M, Nishiyori-Sueki H, Sahin S, Nagao-Sato S, Severin J, de Hoon MJ, Kawai J, Kasukawa T, Lassmann T, Suzuki H, Kawaji H, Summers KM, Wells C; FANTOM Consortium, Hume DA, Forrest AR, Sandelin A, Carninci P, Hayashizaki Y.
Transcribed enhancers lead waves of coordinated transcription in transitioning mammalian cells.
Science. 2015 Feb 27;347(6225):1010-4. doi: 10.1126/science.1259418. Epub 2015 Feb 12.
PMID: 25678556

Chung-Chau Hon, Jordan A. Ramilowski, Jayson Harshbarger, Nicolas Bertin, Owen J. L. Rackham, Julian Gough, Elena Denisenko, Sebastian Schmeier, Thomas M. Poulsen, Jessica Severin, Marina Lizio, Hideya Kawaji, Takeya Kasukawa, Masayoshi Itoh, A. Maxwell Burroughs, Shohei Noma, Sarah Djebali, Tanvir Alam, Yulia A. Medvedeva, Alison C. Testa, Leonard Lipovich, Chi-Wai Yip, Imad Abugessaisa, Mickaël Mendez, Akira Hasegawa, Dave Tang, Timo Lassmann, Peter Heutink, Magda Babina, Christine A. Wells, Soichi Kojima, Yukio Nakamura, Harukazu Suzuki, Carsten O. Daub, Michiel J. L. de Hoon, Erik Arner, Yoshihide Hayashizaki, Piero Carninci & Alistair R. R. Forrest
An atlas of human long non-coding RNAs with accurate 5' ends
Nature volume 543, pages 199–204 (09 March 2017)
PMID: 28241135

Derek de Rie, Imad Abugessaisa, Tanvir Alam, Erik Arner, Peter Arner, Haitham Ashoor, Gaby Åström, Magda Babina, Nicolas Bertin, A Maxwell Burroughs, Ailsa J Carlisle, Carsten O Daub, Michael Detmar, Ruslan Deviatiiarov, Alexandre Fort, Claudia Gebhard, Daniel Goldowitz, Sven Guhl, Thomas J Ha, Jayson Harshbarger, Akira Hasegawa, Kosuke Hashimoto, Meenhard Herlyn, Peter Heutink, Kelly J Hitchens, Chung Chau Hon, Edward Huang, Yuri Ishizu, Chieko Kai, Takeya Kasukawa, Peter Klinken, Timo Lassmann, Charles-Henri Lecellier, Weonju Lee, Marina Lizio, Vsevolod Makeev, Anthony Mathelier, Yulia A Medvedeva, Niklas Mejhert, Christopher J Mungall, Shohei Noma, Mitsuhiro Ohshima, Mariko Okada-Hatakeyama, Helena Persson, Patrizia Rizzu, Filip Roudnicky, Pål Sætrom, Hiroki Sato, Jessica Severin, Jay W Shin, Rolf K Swoboda, Hiroshi Tarui, Hiroo Toyoda, Kristoffer Vitting-Seerup, Louise Winteringham, Yoko Yamaguchi, Kayoko Yasuzawa, Misako Yoneda, Noriko Yumoto, Susan Zabierowski, Peter G Zhang, Christine A Wells, Kim M Summers, Hideya Kawaji, Albin Sandelin, Michael Rehli, The FANTOM Consortium, Yoshihide Hayashizaki, Piero Carninci, Alistair R R Forrest & Michiel J L de Hoon
An integrated expression atlas of miRNAs and their promoters in human and mouse
Nature Biotechnology volume 35, pages 872–878 (2017)
PMID: 28829439

トップに戻る

6. 連絡先

「FANTOM5」についてのお問い合わせは、下記連絡先までご連絡ください。

E-mail: fantom-help[at]riken[dot]jp

トップに戻る