Legenda
2016/09/30
HTTPS Site:
https://dbarchive.biosciencedbc.jp/data/legenda/
文献から抽出した疾患-遺伝子-物質との関係を納めた疾患情報テキストマイニングデータベース
README 目次
- ダウンロードデータの構成
- ダウンロードデータの説明
- 本データベースの利用許諾
- 更新履歴
- 参考文献
- 連絡先
1. ダウンロードデータの構成
- README
- ambig_sui
- case_sensitive_sui
- concept_index
- cui_cooc_pair_probability_info_by_doc
- cui_probability_info_by_doc
- cui_to_dictionary_category
- dcooc_summary
- dictionary_category
- direct_cooc
- direct_cui_relation
- medline
- medline_pubdate
- mrcon
- mrso
- ner_index
- omim_disease_gene_relation
- string_index
- suppress_on_multisense_solve_failure_sui
- suppressed_sui
2. ダウンロードデータの説明
2.1 README
README |
「Legenda」のダウンロードデータについて説明したHTMLファイル。 |
README.html (日本語) |
2.2 ambig_sui
ambig_sui |
文献中に出現した多義語suiに対して、文献によりcui(Unique identifier for concept)を割り当てた際の統計値 |
legenda_ambig_sui.zip (1.0 MB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
sui |
Unique identifier for string |
cui |
suiに対するUnique identifier for concept |
resolved_by_synonym_occurrence_count |
同一文献中に同義語が出現したことにより、このcuiを割り当てることができた回数 |
major |
このsuiに対するcuiは、resolved_by_synonym_occurrence_countが最大のものかどうかを示すフラグ。すなわち、この多義語に対してコンセプトが全文献中において、最もメジャーがどうかを示している。 |
2.3 case_sensitive_sui
case_sensitive_sui |
大文字、小文字を区別する(Case sensitive)sui(Unique identifier for string)に関する情報 |
legenda_case_sensitive_sui.zip (323 KB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
sui |
Unique identifier for string |
method |
方法のフラグ(r:ルールにより設定した(n文字以下など)、f:フラグにより設定した(ストリングのリストなど)) |
date |
タイムスタンプ |
2.4 concept_index
concept_index |
文献中にあらわれるconceptのインデックス |
legenda_concept_index.zip (846 MB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
str_idx_id |
string_indexテーブルの主キー |
cui |
Unique Identifier for concept |
ambiguous |
このインデックスに多義語ストリングが位置しているかどうか |
acrotagger_solve_status |
http://www.ebi.ac.uk/Rebholz/software.htmlで紹介されているAcroTaggerというツールを適用した結果。結局AcrotaggerはLEGENDAに導入されていないため、空欄である。 |
legenda_solve_status |
0: 多義語でない、1: 文脈により多義語を解決した 2: 多義語を最もメジャーなコンセプトに倒した、3: カウントが0のためメジャーなコンセプトか判断ができなかったが、1つのコンセプトに倒した |
2.5 cui_cooc_pair_probability_info_by_doc
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
cui1 |
Unique identifier for concept 1 |
cui2 |
Unique identifier for concept 2 |
max_before_first_occurrence_rec_cooccurence |
Max(Af、Bf)の値 |
total_rec_count |
Tabの値 |
probability |
Pabの値 |
mim |
2つの確率変数の相互依存の尺度(Mutual Information Measure(equation(1)におけるPab/(Pa * Pb)の値) |
2.6 cui_probability_info_by_doc
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
cui |
Unique identifier for concept |
before_first_occurrence_rec_count |
Af、Bfの値 |
total_rec_count |
Ta、Tbの値 |
probability |
Pa、Pbの値 |
2.7 cui_to_dictionary_category
cui_to_dictionary_category |
cui(Unique identifier for concept)に対する辞書カテゴリIDの割り当てデータ |
legenda_cui_to_dictionary_category.zip (3.1 MB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
cui |
Unique identifier for concept |
dictionary_category_id |
1:遺伝子、2:疾患、4:遺伝子機能、5:物質 |
2.8 dcooc_summary
dcooc_summary |
ストリングのペアが何件かの直接共起をもつ情報のサマリー |
legenda_dcooc_summary.zip (308 MB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
sui1 |
Unique identifier for string 1 |
cui1 |
Unique identifier for concept 1 |
sui2 |
Unique identifier for string 2 |
cui2 |
Unique identifier for concept 2 |
num_coocs |
文共起の件数 |
num_docs |
文共起が存在する文献の件数 |
2.9 dictionary_category
dictionary_category |
辞書のカテゴリ情報 |
legenda_dictionary_category.zip (253 B) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
name |
カテゴリ名 |
2.10 direct_cooc
direct_cooc |
全ての行が「cui1<= cui2, !(sui1 == sui2 && cui1== cui2)」を満たす文共起データ |
legenda_direct_cooc.zip (2.0 GB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
string_index_id1 |
string_index用キーid |
sui1 |
Unique identifier for string 1 |
cui1 |
Unique identifier for concept 1 |
string_index_id2 |
string_index用キーid |
sui2 |
Unique identifier for string 2 |
cui2 |
Unique identifier for concept 2 |
2.11 direct_cui_relation
direct_cui_relation |
コンセプトペアに対して、MIMスコア、直接共起数、出現ドキュメント数を記録した情報であり、Relation Viewを表示するために検索データとして利用している |
legenda_direct_cui_relation.zip (908 MB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
cui1 |
Unique Identifier for concept 1 |
cui2 |
Unique Identifier for concept 2 |
mim |
cui1、cui2に関するMIMスコア |
num_coocs |
文共起の件数 |
num_docs |
cui1とcui2のペアによる文共起が存在する文献の件数 |
2.12 medline
medline |
MEDLINEのPMIDとPubDateタグ内の出版年情報をXML形式で格納したデータ |
legenda_medline.zip (9.6 GB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
pmid |
PubMed ID |
xml |
MEDLINEのPubDateタグ内の出版年情報(XML形式) |
2.13 medline_pubdate
medline_pubdate |
MEDLINEのPMIDとPubDateタグ内の出版年情報をDBのDATE型に変換したデータ |
legenda_medline_pubdate.zip (102 MB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
pmid |
PubMed ID |
pubdate |
MEDLINEのPubDateタグ内の出版年情報(Date型) |
2.14 mrcon
mrcon |
コンセプトに関する情報(UMLS MetathesaurusのMRCONファイルに対応するデータ) |
legenda_mrcon.zip (29 MB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
cui |
Unique identifier for concept |
lat |
Language of term |
ts |
conceptの中の代表termかどうかを示すTerm status |
lui |
Unique identifier for term |
stt |
termの中の代表stringかどうかを示すString type |
sui |
Unique identifier for string |
str |
String |
lrl |
cui,suiでMRSOを引いた時に最も低いcrlの値であるLeast restriction level |
2.15 mrso
mrso |
ソースデータに関する情報(UMLS MetathesaurusのMRSOファイルに対応するデータ) |
legenda_mrso.zip (18 MB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
cui |
Unique identifier of concept |
lui |
Unique identifier of term |
sui |
Unique identifier of string |
sab |
Abbreviated source name for source vocabulary (由来するDBの略称) |
tty |
Abbreviated for term type name in source vocabulary(termの分野の略称) |
code |
Unique identifier or code for string in that source(由来するDB内でのID) |
srl |
Source restriction level(由来するDBのデータライセンスレベル) |
2.16 ner_index
ner_index |
NER(Named Entity Recognition)ツールにstring_indexデータを処理した結果 |
legenda_ner_index.zip (903 MB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
str_idx_id |
string_indexテーブルの主キー |
category |
NERツールで対象とした辞書カテゴリID |
ner |
対象とするstring_indexを辞書カテゴリIDに対応するNamed Entityとして認識できるか否かを示すフラグ(0:認識できない、1:認識できる) |
2.17 omim_disease_gene_relation
omim_disease_gene_relation |
Relation ViewページでOMIMへのリンクを表示するためのID対応表。遺伝子と疾患の関係の場合、このテーブルとmrsoテーブルに対して2つのcuiで検索することで、mim_numberのリストが取得可能となる。 |
legenda_omim_disease_gene_relation.zip (152 KB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
disease_cui |
疾患のcui |
disease_name |
疾患名 |
mim_number |
疾患に対応するOMIMのID |
gene_id |
遺伝子に対応するEntrezGeneのGene ID |
gene_name |
遺伝子名 |
2.18 string_index
string_index |
文献中にあらわれるstringのインデックス |
legenda_string_index.zip (1.7 GB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
pmid |
sui(Unique Identifier for string)が出現しているPubMed ID |
sen_id |
suiが出現しているセンテンスID(0=タイトル、1=アブストラクトの一文目) |
index_start |
pmid、sen_id中のsuiに対応するストリングの出現開始位置(0始まり) |
index_end |
pmid、sen_id中のsuiに対応するストリングの出現修了位置 |
sui |
インデックスされているストリングに対応するsui |
2.19 suppress_on_multisense_solve_failure_sui
suppress_on_multisense_solve_failure_sui |
文脈を利用した多義語の解決に失敗した際にインデックスを無効とするsuiのリスト |
legenda_suppress_on_multisense_solve_failure_sui.zip (1.4 KB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
sui |
Unique Identifier for string |
method |
判断方法(r:ルールにより設定した(n文字以下など)、f:フラグにより設定した(ストリングのリストなど)) |
date |
タイムスタンプ |
2.20 suppressed_sui
suppressed_sui |
削除状態とするsui(Unique identifier for string)リスト |
legenda_suppressed_sui.zip (3.7 KB) |
データファイルの各列のデータは以下の通りです。
項目名 | 項目の説明 |
id |
ID |
sui |
Unique identifier for string |
method |
判断方法(r:ルールにより設定した(n文字以下など)、f:フラグにより設定した(ストリングのリストなど)) |
date |
タイムスタンプ |
3. 本データベースの利用許諾
利用許諾更新日: 2016/09/30
本データベースは、以下で定める利用許諾に基づきご利用いただくことができます。 本利用許諾は、本データベース利用における許諾内容、及び利用者が従うべき条件を定めています。
本データベースの利用許諾は、 クリエイティブ・コモンズ 表示-継承4.0 国際の定める利用許諾です。
本データベースのクレジットは、 ”Legenda © 日紫喜光良 (東邦大学) licensed under CC表示-継承4.0 国際”ですので、 利用にあたり必ず表示してください。
クリエイティブ・コモンズ 表示-継承4.0 国際の概要は こちらです。 具体的な許諾条項は こちらをご覧ください。
本データベースにおいて、以下の条件に従う限り許諾されている事項:
- 本データベースの全部または一部に自由にアクセスし、データを取得することができます。
- 本データベースの全部または一部のデータを自由に再配布することができます。
- 本データベースの全部または一部のデータを利用した、データベースなどの翻案物を自由に作成し、配布することができます。
本利用許諾に基づいて利用する際に従うべき条件:
- 本データベースの全部または一部、あるいは翻案物の配布に際しては、本データベースの作成者のクレジットを表示しなければなりません。
- 本データベースの全部または一部のデータを利用して作成された翻案物は、CC表示-継承4.0(もしくは、それ以降のバージョン)、またはCC表示-継承互換ライセンス(リストはこちら)の下で配布されなければなりません。
- 本利用許諾で許諾されていない事項については、以下のデータベース作成者に連絡をとり、利用許諾を求める必要があります。
利用許諾に関する連絡先:
〒259-1193 神奈川県伊勢原市下糟屋143
東海大学伊勢原キャンパス 医学部1号館7階
東海大学 医学部
今西 規
E-mail: imanishi[at]tokai[dot]ac[dot]jp
4. 更新履歴
更新日 | 更新内容 |
2016/09/30 |
生命科学系データベースアーカイブにてダウンロードデータ公開開始 |
2010/01/31 |
最新データ(ver.3)に更新 |
2008/03/07 |
新Legenda(http://h-invitational.jp/legenda/)で公開開始 |
2005/07/23 |
Legenda(http://jbirc.jbic.or.jp/texmining/)で限定公開開始 |
5. 参考文献
-
6. 連絡先
「Legenda」についてのお問い合わせは、下記連絡先までご連絡ください。
〒259-1193 神奈川県伊勢原市下糟屋143
東海大学伊勢原キャンパス 医学部1号館7階
東海大学 医学部
今西 規
E-mail: imanishi[at]tokai[dot]ac[dot]jp