D-HaploDB

2016/12/13

Web Site: (運用終了)http://orca.gen.kyushu-u.ac.jp/
HTTPS Site: https://dbarchive.biosciencedbc.jp/data/dhaplodb

全胞状奇胎を用いて直接決定した日本人ゲノムハプロタイプと連鎖不平衡構造のデータベース

README 目次

  1. ダウンロードデータの構成
  2. ダウンロードデータの説明
  3. 本データベースの利用許諾
  4. 更新履歴
  5. 参考文献
  6. 連絡先

1. ダウンロードデータの構成

  1. README
  2. SNP 一覧 (Phase II)
  3. SNP 一覧 (Phase III)
  4. LD bin 一覧 (Phase II)
  5. LD bin 一覧 (Phase III)
  6. Genotype Data (Phase II)
  7. Genotype Data (Phase III)
  8. LD_bin Data (Phase II)
  9. LD_bin Data (Phase III)
トップに戻る

2. ダウンロードデータの説明

2.1 README

データ名 README
データ内容 「D-HaploDB」のダウンロードデータについて説明したHTMLファイル。
ダウンロードファイル名 README.html (日本語)
トップに戻る

2.2 SNP 一覧 (Phase II)

データ名 SNP 一覧 (Phase II)
データ内容の説明

D2(Phase II)のSNP一覧。
D1(Phase I、Perlegen社アレイによる281K SNPデータ)に、Affymetrix 500Kアレイを用いて決定したデータをマージし、品質管理(QC)を行ったもの(74サンプル分)。連鎖不平衡領域(LD bin)を算出してある。
Phase IIのデータ(Genotype DataとAnnotation Data)から、SNP単位の情報を表形式にまとめたもの。

データファイル dhaplo_d2_snp_list.zip (16.6MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
RefSNP ID RefSNP ID (rs番号)。 (簡易検索ではdbSNPへのリンク)
Affy/Perlegen ID Affymetrix社またはPerlegen社のマイクロアレイのユニークID。
Chromosome SNPが存在する染色体。
Position SNPの染色体上の位置。 (NCBI Build 35)
Alleles 対立遺伝子。
MAF SNPの対立遺伝子の頻度。 (MAF: Minor allele frequency)
Genotypes 74セットの胞状奇胎の試料についての遺伝子型。
LD bin LD binの名称。 (簡易検索では、「LD bin 一覧」テーブルへのリンク)
tagSNP tagSNPであるかどうかを示すフラグ。
1: tagSNPである。
0: tagSNPではない。
-: LD binに含まれないSNP。
Best tagSNP Best tagSNPであるかどうかを示すフラグ。
1: Best tagSNPである。
0: Best tagSNPではない。
-: LD binに含まれないSNP。
トップに戻る

2.3 SNP 一覧 (Phase III)

データ名 SNP 一覧 (Phase III)
データ内容の説明

D3(Phase III)のSNP一覧(1M SNP、87サンプル分)。
基本的にはKukita et al. (2010)記載の通りに作成されているが、論文のQCはより厳しくさらに2サンプル(CHM010とCHM035)が排除されている。連鎖不平衡領域(LD bin)を算出してある。
Phase IIIのデータ(Genotype DataとAnnotation Data)から、SNP単位の情報を表形式にまとめたもの。

データファイル dhaplo_d3_snp_list.zip (23.9MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
RefSNP ID RefSNP ID (rs番号)。 (簡易検索ではdbSNPへのリンク)
Affy/Perlegen ID Affymetrix社またはPerlegen社のマイクロアレイのユニークID。
Chromosome SNPが存在する染色体。
Position SNPの染色体上の位置。 (NCBI Build 36)
Alleles 対立遺伝子。
MAF SNPの対立遺伝子の頻度。 (MAF: Minor allele frequency)
Genotypes 87セットの胞状奇胎の試料についての遺伝子型。
LD bin LD binの名称。 (簡易検索では、「LD bin 一覧」テーブルへのリンク)
tagSNP tagSNPであるかどうかを示すフラグ。
1: tagSNPである。
0: tagSNPではない。
-: LD binに含まれないSNP。
Best tagSNP Best tagSNPであるかどうかを示すフラグ。
1: Best tagSNPである。
0: Best tagSNPではない。
-: LD binに含まれないSNP。
トップに戻る

2.4 LD bin 一覧 (Phase II)

データ名 LD bin 一覧 (Phase II)
データ内容の説明

D2(Phase II)のLD bin 一覧。
LD bin (連鎖不平衡領域)は、r2 (連鎖不平衡の指標)の高いSNP同士をグループ化したもの。
Phase IIのデータ(Genotype DataとAnnotation Data)から、LD bin単位の情報を表形式にまとめたもの。

データファイル dhaplo_d2_ld_bin_list.zip (3.0MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
LD bin LD binの名称。
Chromosome LD binが存在する染色体。 (Chr1~Chr22, ChrX)
Position Start LD binの染色体上の開始位置。 (NCBI Build 35)
Position End LD binの染色体上の終了位置。 (NCBI Build 35)
SNPs Count LD binに含まれるSNPの数。
tagSNPs Count LD binに含まれるtagSNPの数。
Best tagSNP LD binに含まれるtagSNPのうち、r2が最も高いSNPのRefSNP ID (rs番号)。
(簡易検索ではdbSNPへのリンク)
トップに戻る

2.5 LD bin 一覧 (Phase III)

データ名 LD bin 一覧 (Phase III)
データ内容の説明

D3(Phase III)のLD bin一覧。
LD bin (連鎖不平衡領域)は、r2 (連鎖不平衡の指標)の高いSNP同士をグループ化したもの。
Phase IIIのデータ(Genotype DataとAnnotation Data)から、LD bin単位の情報を表形式にまとめたもの。

データファイル dhaplo_d3_ld_bin_list.zip (3.1MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
LD bin LD binの名称。
Chromosome LD binが存在する染色体。 (Chr1~Chr22, ChrX)
Position Start LD binの染色体上の開始位置。 (NCBI Build 36)
Position End LD binの染色体上の終了位置。 (NCBI Build 36)
SNPs Count LD binに含まれるSNPの数。
tagSNPs Count LD binに含まれるtagSNPの数。
Best tagSNP LD binに含まれるtagSNPのうち、r2が最も高いSNPのRefSNP ID (rs番号)。
(簡易検索ではdbSNPへのリンク)
トップに戻る

2.6 Genotype Data (Phase II)

データ名 Genotype Data (Phase II)
データ内容の説明

D2(Phase II)の遺伝子型データ。
D1(Phase I、Perlegen社アレイによる281K SNPデータ)に、Affymetrix 500Kアレイを用いて決定したデータをマージし、品質管理(QC)を行ったもの(74サンプル分)。

データファイル mole_info_DhaploD2.txt.gz (13.7MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
rs RefSNP accession ID (rs number)
chr SNPが存在する染色体の番号 (1-22,X)
pos SNPの染色体上の位置
allele1 対立遺伝子1
allele2 対立遺伝子2
gtype 74セット分の胞状奇胎の試料の遺伝子型
トップに戻る

2.7 Genotype Data (Phase III)

データ名 Genotype Data (Phase III)
データ内容の説明

D3(Phase III)の遺伝子型データ(876K SNP、87サンプル分)。
基本的にはKukita et al. (2010)記載の通りに作成されているが、論文のQCはより厳しくさらに2サンプル(CHM010とCHM035)が排除されている。ダウンロードデータにはコピー数多型(CNV)は含まれていない。

データファイル mole_info_DhaploD3.txt.gz (23.8MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
chr 染色体番号 (1-22,X)
sample データセットの名称
rs RefSNP accession ID (rs number)
pos 染色体上の位置
allele1 対立遺伝子1
allele2 対立遺伝子2
gtype 87セット分の胞状奇胎の試料の遺伝子型
ss Affymetrix社のマイクロアレイでのユニークID
トップに戻る

2.8 LD_bin Data (Phase II)

データ名 LD_bin Data (Phase II)
データ内容の説明

D2(Phase II)の連鎖不平衡領域(LD bin)の算出結果。
GFFフォーマットのファイルで、2種類の行が含まれており、カラム#3で区別されている。
・LD_BIN行 : LD binに含まれるSNP、さらにtagSNP、Best tagSNP(※)を示す。
・LD_BIN_BOUNDARIES行 : LD binの境界を示す。
(※Best tagSNP:LD bin内の他のSNPに対するr2の平均が最高値を示すSNP)

データファイル bin_2R80M5.gff.gz (GFF形式) (12.1MB)

データファイルの各列のデータは以下の通りです。
カラム番号GFF形式上での定義項目の説明
#1 seqname SNPの存在する染色体。(e.g. Chr1)
#2 source データセットの名称。(e.g. CHM_2R80M5Z)
#3 feature データの種別。SNPの情報またはLD binの境界の情報。
(e.g. LD_BIN, LD_BIN_BOUNDARIES)
#4 start SNP、またはbin左端の染色体上の位置。 (NCBI Build 35)
#5 end SNP、またはbin右端の染色体上の位置。
#6 score LD_BIN行では、2:Best tagSNP、1:tagSNP、0:他のSNP。LD_BIN_BOUNDARIES行では常に"."
#7 strand (常に"+")
#8 frame (常に".")
#9 attributes 次の複数のデータを含む項目。
ld_bin: LD binの名称(これ以外はLD_BIN行にのみ存在)
RSID: RefSNP ID (rs番号)
tagging: tagSNPかどうかを示すフラグ
besttag: Best tagSNPかどうかを示すフラグ
SNPID: Affymetrix社のマイクロアレイのユニークID
(e.g. ld_bin 2R80M5Z_10_1 ; RSID rs16930466 ; tagging 1 ; besttag 0 ; SNPID SNP_A-2110939)
トップに戻る

2.9 LD_bin Data (Phase III)

データ名 LD_bin Data (Phase III)
データ内容の説明

D3(Phase III)の連鎖不平衡領域(LD bin)の算出結果。
GFFフォーマットのファイルで、2種類の行が含まれており、カラム#3で区別されている。
・LD_BIN行 : LD binに含まれるSNP、さらにtagSNP、Best tagSNP(※)を示す。
・LD_BIN_BOUNDARIES行 : LD binの境界を示す。
(※Best tagSNP:LD bin内の他のSNPに対するr2の平均が最高値を示すSNP)

データファイル bin_3R80M5Zb36.gff.gz (GFF形式) (12.8MB)

データファイルの各列のデータは以下の通りです。
カラム番号GFF形式上での定義項目の説明
#1 seqname SNPの存在する染色体。(e.g. Chr1)
#2 source データセットの名称。(e.g. CHM_3R80M5Z)
#3 feature データの種別。SNPの情報またはLD binの境界の情報。
(e.g. LD_BIN, LD_BIN_BOUNDARIES)
#4 start SNP、またはbin左端の染色体上の位置。 (NCBI Build 36)
#5 end SNP、またはbin右端の染色体上の位置。
#6 score LD_BIN行では、2:Best tagSNP、1:tagSNP、0:他のSNP。LD_BIN_BOUNDARIES行では常に"."
#7 strand (常に"+")
#8 frame (常に".")
#9 attributes 次の複数のデータを含む項目。
ld_bin: LD binの名称(これ以外はLD_BIN行にのみ存在)
RSID: RefSNP ID (rs番号)
tagging: tagSNPかどうかを示すフラグ
besttag: Best tagSNPかどうかを示すフラグ
SNPID: Affymetrix社のマイクロアレイのユニークID
(e.g. ld_bin 3R80M5Z_10_2 ; RSID rs16930466 ; tagging 1 ; besttag 0 ; SNPID SNP_A-2110939)
トップに戻る

3. 本データベースの利用許諾

利用許諾更新日: 2011/08/25

本データベースは、以下で定める利用許諾に基づきご利用いただくことができます。 本利用許諾は、本データベース利用における許諾内容、及び利用者が従うべき条件を定めています。


Creative Commons License

本データベースの利用許諾は、 クリエイティブ・コモンズ 表示-継承2.1 日本の定める利用許諾です。
本データベースのクレジットは、 ”D-HaploDB c 林 健志 (九州大学) licensed under CC表示 継承2.1 日本”ですので、 利用にあたり必ず表示してください。

クリエイティブ・コモンズ 表示-継承2.1 日本の概要は こちらです。 具体的な許諾条項は こちらをご覧ください。

本データベースにおいて、以下の条件に従う限り許諾されている事項:

  1. 本データベースの全部または一部に自由にアクセスし、データを取得することができます。
  2. 本データベースの全部または一部のデータを自由に再配布することができます。
  3. 本データベースの全部または一部のデータを利用した、データベースなどの二次的著作物を自由に作成し、配布することができます。

本利用許諾に基づいて利用する際に従うべき条件:

  1. 本データベースの全部または一部、あるいは二次的著作物の配布に際しては、本データベースの作成者のクレジットを表示しなければなりません。
  2. 本データベースの全部または一部のデータを利用して作成された二次的著作物は、この利用許諾の下で配布されなければなりません。
  3. 本利用許諾で許諾されていない事項については、以下のデータベース作成者に連絡をとり、利用許諾を求める必要があります。

データベース作成者連絡先:

金城学院大学薬学部
田平 知子
E-mail: ttahira[at]kinjo-u[dot]ac[dot]jp

トップに戻る

4. 更新履歴

更新日更新内容
2016/12/13 オリジナルサイトに関する記載を更新
2011/08/25 生命科学系データベースアーカイブにてダウンロードデータ公開開始
2005/07/20 D-HaploDB (http://orca.gen.kyushu-u.ac.jp/) で公開開始
トップに戻る

5. 参考文献

Kukita Y, Miyatake K, Stokowski R, Hinds D, Higasa K, Wake N, Hirakawa T, Kato H, Matsuda T, Pant K, Cox D, Tahira T, Hayashi K.
Genome-wide definitive haplotypes determined using a collection of complete hydatidiform moles.
Genome Res. 2005 Nov;15(11):1511-8.
PMID: 16251461

Higasa K, Miyatake K, Kukita Y, Tahira T, Hayashi K.
D-HaploDB: a database of definitive haplotypes determined by genotyping complete hydatidiform mole samples.
Nucleic Acids Res. 2007 Jan;35(Database issue):D685-9.
PMID: 17166862

Higasa K, Kukita Y, Kato K, Wake N, Tahira T, Hayashi K.
Evaluation of haplotype inference using definitive haplotype data obtained from complete hydatidiform moles, and its significance for the analyses of positively selected regions.
PLoS Genetics, 2009 May;5(5):e1000468.
PMID: 19424418

Kukita Y, Yahara K, Tahira T, Higasa K, Sonoda M, Yamamoto K, Kato K, Wake N, Hayashi K.
A definitive haplotype map as determined by genotyping duplicated haploid genomes finds a predominant haplotype preference at copy-number variation events.
Am. J. Hum. Genet. 2010 Jun;86(6):918-28.
PMID: 20537301

トップに戻る

6. 連絡先

「D-HaploDB」についてのお問い合わせは、下記連絡先までご連絡ください。

金城学院大学薬学部
田平 知子
E-mail: ttahira[at]kinjo-u[dot]ac[dot]jp

トップに戻る