Gclust Server

2009/09/14

WebSite: http://gclust.c.u-tokyo.ac.jp/
HTTPS Site: https://dbarchive.biosciencedbc.jp/data/gclust

95生物種のタンパク質の総当たりBlast検索の結果得られたクラスタのデータベース

README 目次

  1. ダウンロードデータの構成
  2. ダウンロードデータの説明
  3. 本データベースの利用許諾
  4. 更新履歴
  5. 参考文献
  6. 連絡先

1. ダウンロードデータの構成

    DBCLSが加工したダウンロードファイル

    以下は、オリジナルサイトのダウンロードファイルを DBCLSがCSV形式のファイルに加工したものです。
  1. README
  2. 95生物種の予測されたタンパク質のアミノ酸配列、及びそれらのアノテーション
  3. 95生物種のタンパク質アミノ酸配列のホモロガスなクラスター
  4. 95生物種のタンパク質アミノ酸配列クラスターとクラスター形成に用いなかった類似関係
  5. オリジナルサイトのダウンロードファイル

    以下は、Gclust Serverのオリジナルサイトからダウンロード可能なファイルです。
  6. クラスタリングに使用したアミノ酸配列(マルチFASTA形式)
  7. 配列IDとアノテーション情報
  8. 生物毎の接頭語リスト
  9. 生物グループの設定
  10. 生物グループ分けのパラメータ
  11. クラスタリング結果
  12. クラスターと生物種数の表
トップに戻る

2. ダウンロードデータの説明

2.1 README

データ名 README
データ内容 「Gclust Server」のダウンロードデータについて説明したHTMLファイル。
ダウンロードファイル名 README.html(日本語)
トップに戻る

2.2 95生物種の予測されたタンパク質のアミノ酸配列、及びそれらのアノテーション。

データ名 95生物種の予測されたタンパク質のアミノ酸配列、及びそれらのアノテーション。
データ内容の説明 95生物種の予測されたタンパク質のアミノ酸配列、及びそれらのアノテーション。 CSV形式のテキストファイル。
データファイル gclust_seq.zip (152MB)
データファイルの各列のデータは以下の通りです。
項目名 主キー 外部キー 項目の説明
Sequence ID 配列のID
Cluster ID クラスターのID。gclust_clusterを参照する。
Annotation in original database オリジナルサイトでのアノテーション
Species 種名
Length アミノ酸配列長
Sequence アミノ酸配列

2.3 95生物種のタンパク質アミノ酸配列間の類似度比較に基づくクラスター

データ名 95生物種のタンパク質アミノ酸配列間の類似度比較に基づくクラスター
データ内容の説明 上記アミノ酸配列データを総当たりでBLASTP検索し、 E-valueとオーバーラップスコア(相同な領域の割合)をクラスタリングの条件として用い、 クラスター毎に最適なE-valueとオーバーラップスコアの領域を求める方法 (Bioinformatics 2009 Mar 1;25(5):599-605.)でクラスタリングを行った。 CSV形式のテキストファイル。
データファイル gclust_cluster.zip (8.72MB)
データファイルの各列のデータは以下の通りです。
項目名 主キー 外部キー 項目の説明
Cluster ID   クラスターのID
Representative sequence ID   クラスターを代表する配列のID。gclust_seqを参照する。
Link to cluster sequences     クラスターに属する配列リストへのリンク(空欄)
Link to related sequences     クラスター形成に用いなかった類似関係にある配列リストへのリンク
Sequence length     アミノ酸配列長
Representative annotation     クラスターの代表的なアノテーション
Number of Sequences     クラスターに含まれる配列数
Homologs     クラスターに含まれる配列数
Clustering threshold     クラスタリングに用いたE-valueの閾値
Plants (7species) (%)     植物・藻 (Plants and algae)の7種中、このクラスタに含まれた種の割合
Other bikonts (9species) (%)     他のバイコンタ(Bikonts (Chromalveolata, Excavata))の7種中、このクラスタに含まれた種の割合
Cyano (25species) (%)     シアノバクテリア(Cyanobacteria)の25種中、このクラスタに含まれた種の割合
Photo Bact (15species) (%)     光合成細菌(Photosynthetic bacteria) 7種中、このクラスタに含まれた種の割合
Other Bact (31species) (%)     非光合成細菌(Non-photosynthetic bacteria)の7種中、このクラスタに含まれた種の割合
Opisthokonts (8species) (%)     オピストコンタ(Opisthokonts)の8種中、このクラスタに含まれた種の割合
Number of Sequences for each species     クラスターに含まれる生物種毎の配列数
Species not appearing in this cluster     クラスターに含まれなかった生物種

2.4 クラスターと類似関係にあるタンパク質

データ名 クラスターと類似関係にあるタンパク質
データ内容の説明 95生物種のタンパク質アミノ酸配列の各クラスターに対して類似性はあるが、 クラスター形成には用いなかったタンパク質アミノ酸配列。CSV形式のテキストファイル。
データファイル gclust_related.zip (69MB)
データファイルの各列のデータは以下の通りです。
項目名 項目の説明
Cluster ID クラスターのID
Sequence ID 配列のID

2.5 クラスタリングに使用したアミノ酸配列(マルチFASTA形式)

データ名 クラスタリングに使用したアミノ酸配列(マルチFASTA形式)
データ内容の説明 95生物種の予測されたタンパク質のアミノ酸配列、及びそれらのアノテーション。FASTA形式ファイル。
データファイル all95.fa.zip (161MB)

2.6 配列IDとアノテーション情報

データ名 配列IDとアノテーション情報
データ内容の説明 95生物種の予測されたタンパク質のアミノ酸配列のID、長さ、アノテーション情報を記したタブ区切りテキストファイル。
データファイル all95.p.table.zip (7.28MB)
データファイルの各列のデータは以下の通りです。
項目名 項目の説明
フィールド1 アミノ酸配列のID(Sequence ID)
フィールド2 アミノ酸配列の長さ
フィールド3 アミノ酸配列のアノテーション

2.7 生物毎の接頭語リスト

データ名 生物毎の接頭語リスト
データ内容の説明 Gclustで使用される生物の接頭語のリスト。接頭語は配列IDの先頭に、各生物に対応して付けられる。先頭行に生物種の数(95)、 2行目以降は各生物の接頭語が一行ずつ記載され、最後の行に「//END」が記載される。テキスト形式ファイル。
データファイル prefix_all95 (1KB)
データファイルの各列のデータは以下の通りです。
接頭語 生物名
ATH Arabidopsis thaliana
CME Cyanidioschyzon merolae
CRE Chlamydomonas reinhardtii
OSA Oryza sativa
OTAU Ostreococcus tauri
PPT Physcomitrella patens
PoTR Populus tricocarpa
DPTM Paramecium tetraurelia
GTH Guillardia theta
NGR Naegleria gruberi
PFA Plasmodium falciparum
PHRA Phytophthora ramorum
PHSO Phytophthora sojae
PTR Phaeodactylum tricornutum
TET Tetrahymena thermophila SB210
TPS Thalassiosira pseudonana
Ana Anabaena sp. PCC 7120
Ava Anabaena variabilis ATCC 29413
Glv Gloeobacter violaceus
Npun Nostoc punctiforme sp. PCC73102
Pm1 Prochlorococcus marinus MED4
Pm2 Prochlorococcus marinus MIT9313
Pm3 Prochlorococcus marinus SS120
Pm4 Prochlorococcus marinus MIT9312
Pm5 Prochlorococcus marinus NATL2A
Pm6 Prochlorococcus marinus MIT9301
Pm7 Prochlorococcus marinus MIT9303
Pm8 Prochlorococcus marinus MIT9315
Pm9 Prochlorococcus marinus NATL1A
PmA Prochlorococcus marinus AS9601
S63 Synechococcus sp. PCC 6301
S79 Synechococcus sp. PCC 7942
S81 Synechococcus sp. WH8102
S93 Synechococcus sp. CC9311
S96 Synechococcus sp. CC9605
Syn Synechocystis sp. PCC 6803
Tel Thermosynechococcus elongatus
Ter Trichodesmium erythraeum 405 1
YelA Cyanobacterium Yellowstone A-prime
YelB Cyanobacterium Yellowstone B-prime
Caur Chloroflexus aurantiacus
Cch Chlorobium chlorochromatii CaD3
Clim Chlorobium limicola DSM 245
Cph Chlorobium phaeobacteroides DSM 266
Ctep Clorobium tepidum
Pvi Prostheocochloris vibrioformis DSM 265
Rde Roseobacter denitrificans Och 114
Rpa1 Rhodopseudomonas plustris BisA53
Rpa2 Rhodopseudomonas plustris BisB4
Rpa3 Rhodopseudomonas plustris BisB18
Rpa4 Rhodopseudomonas plustris HaA2
Rpal Rhodopseudomonas plustris
Rrub Rhodospirillum rubrum ATCC 11170
Rsh Rhodobacter sphaeroides ATCC 17029
Rsp Rhodobacter sphaeroides 2.4.1
Afu Archaeoglobus fulgidus DSM 4304
Ape Aeropyrum pernix K1
Atu Agrobacterium tumefaciens str. C58
Bja Bradyrhizobium japonicum USDA 110
Bma Burkholderia mallei ATCC 23344
Bms Brucella suis 1330
Bpe Bordetella pertussis Tohama I
Bsu Bacillus subtilis Marburg 168
Ccr Caulobacter crescentus CB15
Cvi Chromobacterium violaceum ATCC 12472
Eba Azoarcus sp EbN1
Eco Escherichia coli K-12
Fal Frankia alni ACN14a
Fra Frankia sp. CcI3
Gox Gluconobacter_oxydans_621H
Hal Halobacterium sp. NRC-1
Mac Methanosarcina acetivorans str. C2A
Mes Mesorhizobium sp. BNC1
Mlo Mesorhizobium loti MAFF303099
Mtu Mycobacterium tuberculosis H37Rv
Neq Nanoarchaeum equitans Kin4-M
Pho Pyrococcus horikoshii OT3
Pst Pseudomonas syringae pv. tomato str. DC3000
Rhe Rhizobium_etli_CFN_42
Rle Rhizobium leguminosarum
Rso Ralstonia solanacearum GMI1000
Sco Streptomyces coelicolor A3(2)
Sep Staphylococcus epidermidis ATCC 12228
Sme Sinorhizobium meliloti 1021
Sto Sulfolobus tokodaii str. 7
Vvy Vibrio vulnificus YJ016
CEL Caenorhabditis elegans
DCGR Candida glabrata CBS138
DKLA Kluyveromyces lactis NRRL Y-1140
DME Drosophila melanogaster
HSA Homo sapiens
SPO Schyzosaccharomyces pombe
S99 Synechococcus sp. CC9902
NCR Neurospora crassa 74-OR23-1A
SCE Saccharomyces cerevisiae

2.6 生物グループの設定

データ名 生物グループの設定
データ内容の説明 95種の生物をグループ分けした定義が記載されている。先頭行に生物種の数、最後の行に「//END」が記載され、 #で始まる行はコメント行である。タブ区切りテキスト形式ファイル。
データファイル grp_def1 (1KB)
データファイルの各列のデータは以下の通りです。
項目名 項目の説明
フィールド1 生物の配列IDの接頭語
フィールド2 グループ(1から6の数字)

2.9 生物グループ分けのパラメータ

データ名 生物グループ分けのパラメータ
データ内容の説明 生物グループに割り当てられる際の、各生物グループの生物種数に占める相同性を示した生物種の数の割合の閾値を設定したファイル。例えば、設定値が0.5の場合、"Plants"のグループの中で7種の生物中、 4種以上の生物種の配列がクラスター内に存在する際に、その生物グループにあるとされる。
データファイル pat_def1 (1KB)
データファイルの各列のデータは以下の通りです。
項目名 項目の説明
フィールド1 グループ番号
フィールド2 生物グループ割り当ての設定値
フィールド3 グループ名

2.10 クラスタリング結果

データ名 クラスタリング結果
データ内容の説明 Gclustプログラムの実行結果。プログラム実行時の条件、クラスターID、クラスター分けに使用された閾値、 クラスターに属する配列ID、関連グループの配列IDなどの情報が記載されている。
データファイル pat_def1 (1KB)
<ファイル構成>
1-80行目:gclustプログラムの実行時の条件など
81行目以降:各クラスターごとの情報。
  END Related groups
<クラスター毎のフォーマット>
Group [クラスターID]: [クラスターに属する配列数] sequences. Final thr =   [閾値]
Group [クラスターID]: [クラスターに属する配列数] sequences. Final thr =   [閾値]
[クラスターに属する配列ID]    [配列長]    [クラスター内の配列同士のホモロジーの有無]クラスターに属する配列数の列数)] [アノテーションの一部]
(クラスターに属する配列個々の情報が記載される)
…
(関連グループのリスト)
  Related groups
  Related groups
    [関連クラスターID]([左記クラスターIDに属する配列数]): [配列ID0]
  END Related groups

2.11 クラスターと生物種数の表

データ名 クラスターと生物種数の表
データ内容の説明 クラスター、クラスターの代表配列ID、その長さ、クラスターに含まれる配列の数、 生物種、95の生物種毎のそのクラスターに属する配列数をタブ区切りテキストファイル形式にまとめた表。
データファイル all95.tbl.zip (4.53MB)
データファイルの各列のデータは以下の通りです。
項目名 項目の説明
Number クラスターID
ID 配列ID
Length 配列長
seqs クラスターに属する配列数
homologs クラスターに属する配列数
ATH Arabidopsis thalianaの配列で、クラスターに属する配列数
OSA Oryza sativaの配列で、クラスターに属する配列数
PoTR Populus tricocarpaの配列で、クラスターに属する配列数
PPT Physcomitrella patensの配列で、クラスターに属する配列数
CRE Chlamydomonas reinhardtiiの配列で、クラスターに属する配列数
OTAU Ostreococcus tauriの配列で、クラスターに属する配列数
CME Cyanidioschyzon merolaeの配列で、クラスターに属する配列数
GTH Guillardia thetaの配列で、クラスターに属する配列数
PFA Plasmodium falciparumの配列で、クラスターに属する配列数
PTR Phaeodactylum tricornutumの配列で、クラスターに属する配列数
TPS Thalassiosira pseudonanaの配列で、クラスターに属する配列数
Ter Trichodesmium erythraeum 405 1の配列で、クラスターに属する配列数
Ana Anabaena sp. PCC 7120の配列で、クラスターに属する配列数
Ava Anabaena variabilis ATCC 29413の配列で、クラスターに属する配列数
Npun Nostoc punctiforme sp. PCC73102の配列で、クラスターに属する配列数
Syn Synechocystis sp. PCC 6803の配列で、クラスターに属する配列数
Glv Gloeobacter violaceusの配列で、クラスターに属する配列数
Tel Thermosynechococcus elongatusの配列で、クラスターに属する配列数
YelA Cyanobacterium Yellowstone A-primeの配列で、クラスターに属する配列数
YelB Cyanobacterium Yellowstone B-primeの配列で、クラスターに属する配列数
S63 Synechococcus sp. PCC 6301の配列で、クラスターに属する配列数
S79 Synechococcus sp. PCC 7942の配列で、クラスターに属する配列数
S81 Synechococcus sp. WH8102の配列で、クラスターに属する配列数
S93 Synechococcus sp. CC9311の配列で、クラスターに属する配列数
S96 Synechococcus sp. CC9605の配列で、クラスターに属する配列数
S99 Synechococcus sp. CC9902の配列で、クラスターに属する配列数
Pm1 Prochlorococcus marinus MED4の配列で、クラスターに属する配列数
Pm2 Prochlorococcus marinus MIT9313の配列で、クラスターに属する配列数
Pm3 Prochlorococcus marinus SS120の配列で、クラスターに属する配列数
Pm4 Prochlorococcus marinus MIT9312の配列で、クラスターに属する配列数
Pm5 Prochlorococcus marinus NATL2Aの配列で、クラスターに属する配列数
Pm6 Prochlorococcus marinus MIT9301の配列で、クラスターに属する配列数
Pm7 Prochlorococcus marinus MIT9303の配列で、クラスターに属する配列数
Pm8 Prochlorococcus marinus MIT9315の配列で、クラスターに属する配列数
Pm9 Prochlorococcus marinus NATL1Aの配列で、クラスターに属する配列数
PmA Prochlorococcus marinus AS9601の配列で、クラスターに属する配列数
Atu Agrobacterium tumefaciens str. C58の配列で、クラスターに属する配列数
Bja Bradyrhizobium japonicum USDA 110の配列で、クラスターに属する配列数
Bms Brucella suis 1330の配列で、クラスターに属する配列数
Ccr Caulobacter crescentus CB15の配列で、クラスターに属する配列数
Gox Gluconobacter_oxydans_621Hの配列で、クラスターに属する配列数
Mes Mesorhizobium sp. BNC1の配列で、クラスターに属する配列数
Mlo Mesorhizobium loti MAFF303099の配列で、クラスターに属する配列数
Rhe Rhizobium_etli_CFN_42の配列で、クラスターに属する配列数
Rle Rhizobium leguminosarumの配列で、クラスターに属する配列数
Sme Sinorhizobium meliloti 1021の配列で、クラスターに属する配列数
Rpa1 Rhodopseudomonas plustris BisA53の配列で、クラスターに属する配列数
Rpa2 Rhodopseudomonas plustris BisB4の配列で、クラスターに属する配列数
Rpa3 Rhodopseudomonas plustris BisB18の配列で、クラスターに属する配列数
Rpa4 Rhodopseudomonas plustris HaA2の配列で、クラスターに属する配列数
Rpal Rhodopseudomonas plustrisの配列で、クラスターに属する配列数
Rrub Rhodospirillum rubrum ATCC 11170の配列で、クラスターに属する配列数
Rde Roseobacter denitrificans Och 114の配列で、クラスターに属する配列数
Rsh Rhodobacter sphaeroides ATCC 17029の配列で、クラスターに属する配列数
Rsp Rhodobacter sphaeroides 2.4.1の配列で、クラスターに属する配列数
Eco Escherichia coli K-12の配列で、クラスターに属する配列数
Pst Pseudomonas syringae pv. tomato str. DC3000の配列で、クラスターに属する配列数
Vvy Vibrio vulnificus YJ016の配列で、クラスターに属する配列数
Bsu Bacillus subtilis Marburg 168の配列で、クラスターに属する配列数
Sep Staphylococcus epidermidis ATCC 12228の配列で、クラスターに属する配列数
Fal Frankia alni ACN14aの配列で、クラスターに属する配列数
Fra Frankia sp. CcI3の配列で、クラスターに属する配列数
Mtu Mycobacterium tuberculosis H37Rvの配列で、クラスターに属する配列数
Sco Streptomyces coelicolor A3(2)の配列で、クラスターに属する配列数
Rso Ralstonia solanacearum GMI1000の配列で、クラスターに属する配列数
Cvi Chromobacterium violaceum ATCC 12472の配列で、クラスターに属する配列数
Bma Burkholderia mallei ATCC 23344の配列で、クラスターに属する配列数
Bpe Bordetella pertussis Tohama Iの配列で、クラスターに属する配列数
Eba Azoarcus sp EbN1の配列で、クラスターに属する配列数
Caur Chloroflexus aurantiacusの配列で、クラスターに属する配列数
Cch Chlorobium chlorochromatii CaD3の配列で、クラスターに属する配列数
Clim Chlorobium limicola DSM 245の配列で、クラスターに属する配列数
Cph Chlorobium phaeobacteroides DSM 266の配列で、クラスターに属する配列数
Ctep Clorobium tepidumの配列で、クラスターに属する配列数
Pvi Prostheocochloris vibrioformis DSM 265の配列で、クラスターに属する配列数
Afu Archaeoglobus fulgidus DSM 4304の配列で、クラスターに属する配列数
Hal Halobacterium sp. NRC-1の配列で、クラスターに属する配列数
Mac Methanosarcina acetivorans str. C2Aの配列で、クラスターに属する配列数
Pho Pyrococcus horikoshii OT3の配列で、クラスターに属する配列数
Ape Aeropyrum pernix K1の配列で、クラスターに属する配列数
Sto Sulfolobus tokodaii str. 7の配列で、クラスターに属する配列数
Neq Nanoarchaeum equitans Kin4-Mの配列で、クラスターに属する配列数
SCE Saccharomyces cerevisiaeの配列で、クラスターに属する配列数
SPO Schyzosaccharomyces pombeの配列で、クラスターに属する配列数
PHRA Phytophthora ramorumの配列で、クラスターに属する配列数
PHSO Phytophthora sojaeの配列で、クラスターに属する配列数
DCGR Candida glabrata CBS138の配列で、クラスターに属する配列数
DKLA Kluyveromyces lactis NRRL Y-1140の配列で、クラスターに属する配列数
NCR Neurospora crassa 74-OR23-1Aの配列で、クラスターに属する配列数
DPTM Paramecium tetraureliaの配列で、クラスターに属する配列数
TET Tetrahymena thermophila SB210の配列で、クラスターに属する配列数
NGR Naegleria gruberiの配列で、クラスターに属する配列数
HSA Homo sapiensの配列で、クラスターに属する配列数
DME Drosophila melanogasterの配列で、クラスターに属する配列数
CEL Caenorhabditis elegansの配列で、クラスターに属する配列数
Annotations アノテーション
トップに戻る

3. 本データベースの利用許諾

標準利用許諾は、本データベース利用における許諾内容、及び利用者が従うべき条件を定めています。
追加利用許諾は、標準利用許諾で原則として禁止されている事項の中で例外的に許諾される事項を定めています。

3.1 標準利用許諾

本データベースの標準利用許諾は、 クリエイティブ・コモンズ 表示-継承2.1 日本 の定める利用許諾です。
本データベースのクレジットは、”Gclust Server, Copyright© 2008-2009 東京大学大学院 総合文化研究科 広域科学専攻生命環境科学系 licensed under CC表示-継承2.1 日本”ですので、 利用にあたり必ず表示してください。

クリエイティブ・コモンズ 表示-継承2.1 日本の概要は こちらです。 具体的な許諾条項は こちらをご覧ください。

本データベースにおいて、標準利用許諾の下で以下の条件に従う限り許諾されている事項:

  1. 本データベースの全部または一部に自由にアクセスし、データを取得することができます。
  2. 本データベースの全部または一部のデータを自由に再配布することができます。
  3. 本データベースの全部または一部のデータを利用した、データベースなどの二次的著作物を自由に作成し、配布することができます。

本データベースにおいて、標準利用許諾に基づいて利用する際に従うべき条件:

  1. 本データベースの全部または一部、あるいは二次的著作物の配布に際しては、本データベースの作成者のクレジットを表示しなければなりません。
  2. 本データベースの全部または一部のデータを利用して作成された二次的著作物は、この利用許諾の下で配布されなければなりません。

3.2 追加利用許諾

1.本データベースの全部または一部を利用して作成された二次的著作物を配布する場合には、標準利用許諾とともにこの追加利用許諾を表示しなければなりません。

2. 本データベースを利用して研究を行い、その成果を論文に記載する場合は、論文中に必ず本データベースを引用して、本データベース名称とURLを記載する必要があります。

3. 標準利用許諾及び上記の追加利用許諾で許諾されていない事項については、以下のデータベース作成者に連絡をとり、利用許諾を求める必要があります。

データベース作成者連絡先:
東京大学大学院 総合文化研究科 広域科学専攻生命環境科学系
佐藤 直樹
E-Mail: naokisat[at]bio[dot]c[dot]u-tokyo[dot]ac[dot]jp

3.3 本データベースへのリンクについて

本データベース内の全てのコンテンツに対しては、自由にリンクを貼ることができます。 ただし、コンテンツの内容は予告なく変更される場合があります。

トップに戻る

4. 更新履歴

更新日 更新内容
2009/9/14 データベースアーカイブにてダウンロードデータ公開開始
2006/6 Gclust Server(http://gclust.c.u-tokyo.ac.jp/)で公開開始
トップに戻る

5. 参考文献

Naoki Sato
Gclust: trans-kingdom classification of proteins using automatic individual threshold setting.
Bioinformatics 2009 Mar 1;25(5):599-605.
PMID: 19158159

6.連絡先

「Gclust Server」についてのお問い合わせは、下記連絡先までご連絡ください。

データベース作成者連絡先:
東京大学大学院 総合文化研究科 広域科学専攻生命環境科学系
佐藤 直樹
E-Mail: naokisat[at]bio[dot]c[dot]u-tokyo[dot]ac[dot]jp

トップに戻る