- あのデータベースが、丸ごとダウンロード可能に!-
[ Japanese | English ]
このデータベースについて

Sequence Classification

データ説明
データ名
Sequence Classification
DOI
10.18908/lsdba.nbdc00713-002
データ内容の説明
ゲノムの各アミノ酸配列に対し、統計的手法と機械学習を使って、β-バレル型膜タンパク質またはヘリックス型膜タンパク質の判別を行った結果の一覧。 統計的手法はアミノ酸、ジペプチド(連続2残基)、モチーフ(1残基ギャップを挟んだ2残基)の組成(出現頻度)に基づいて行い、機械学習はアミノ酸やジペプチドの組成を主な特徴量として用いて行った。
データファイル
データファイル名 :
tmbeta_genome_sequence_classification.zip
データのURL :
ファイルサイズ :
177 MB
簡易検索URL
http://togodb.biosciencedbc.jp/togodb/view/tmbeta_genome_sequence_classification
データ取得方法

アミノ酸配列はNCBIから取得。

解析方法

-

データ件数

903,989 件

データ詳細
項目名 項目の説明
Sequence ID

独自にアミノ酸配列に付与した通し番号

Sequence Collection ID

独自にゲノムに付与した通し番号

New Approach

新たに開発した手法により、β-バレル型膜タンパク質の判別を行った結果。 本手法は以下のステップで実行される。
β-バレル型膜タンパク質と球状タンパク質のジペプチドの出現傾向を用い、β-バレル型膜タンパク質を検出する
さらに、β-バレル型膜タンパク質とヘリックス型膜タンパク質のジペプチドの出現傾向を用い、β-バレル型膜タンパク質を絞り込む
配列長が50以下のタンパク質を除く
SOSUIで膜貫通ヘリックス部位が2箇所以上予測されたタンパク質を除く
80%の配列領域において、PDBに登録されている球状タンパク質とヘリックス型膜タンパク質に対し、70%を超える同一性のあるタンパク質を除く
SWISS-PROTに登録されている球状タンパク質とヘリックス型膜タンパク質に対し、80%を超える同一性のあるタンパク質を除く

SOSUI

膜タンパク質予測ツールであるSOSUIを使い、ヘリックス型膜タンパク質の判別を行った結果

Amino Acid

アミノ酸組成を使った統計的手法(TMBETADISC-COMP)により、β-バレル型膜タンパク質の判別を行った結果

Dipeptide

ジペプチドの出現傾向を使った統計的手法(TMBETADISC_DIPEPTIDE)により、β-バレル型膜タンパク質の判別を行った結果

Motif

上記のモチーフを使った統計的手法(TMBETADISC-MOTIF)により、β-バレル型膜タンパク質の判別を行った結果

SVM

アミノ酸組成とジペプチド出現傾向をSVM(Support Vector Machine)で機械学習を行った分類器(TMBETA-SVM)を使い、β-バレル型膜タンパク質の判別を行った結果

Header

FASTAファイルに記載されたアミノ酸配列データのヘッダ行

Sequence

アミノ酸配列