Legenda

2016/09/30

HTTPS Site: https://dbarchive.biosciencedbc.jp/data/legenda/

文献から抽出した疾患-遺伝子-物質との関係を納めた疾患情報テキストマイニングデータベース

README 目次

  1. ダウンロードデータの構成
  2. ダウンロードデータの説明
  3. 本データベースの利用許諾
  4. 更新履歴
  5. 参考文献
  6. 連絡先

1. ダウンロードデータの構成

  1. README
  2. ambig_sui
  3. case_sensitive_sui
  4. concept_index
  5. cui_cooc_pair_probability_info_by_doc
  6. cui_probability_info_by_doc
  7. cui_to_dictionary_category
  8. dcooc_summary
  9. dictionary_category
  10. direct_cooc
  11. direct_cui_relation
  12. medline
  13. medline_pubdate
  14. mrcon
  15. mrso
  16. ner_index
  17. omim_disease_gene_relation
  18. string_index
  19. suppress_on_multisense_solve_failure_sui
  20. suppressed_sui
トップに戻る

2. ダウンロードデータの説明

2.1 README

データ名 README
データ内容 「Legenda」のダウンロードデータについて説明したHTMLファイル。
ダウンロードファイル名 README.html (日本語)
トップに戻る

2.2 ambig_sui

データ名 ambig_sui
データ内容の説明

文献中に出現した多義語suiに対して、文献によりcui(Unique identifier for concept)を割り当てた際の統計値

データファイル legenda_ambig_sui.zip (1.0 MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
sui Unique identifier for string
cui suiに対するUnique identifier for concept
resolved_by_synonym_occurrence_count 同一文献中に同義語が出現したことにより、このcuiを割り当てることができた回数
major このsuiに対するcuiは、resolved_by_synonym_occurrence_countが最大のものかどうかを示すフラグ。すなわち、この多義語に対してコンセプトが全文献中において、最もメジャーがどうかを示している。
トップに戻る

2.3 case_sensitive_sui

データ名 case_sensitive_sui
データ内容の説明

大文字、小文字を区別する(Case sensitive)sui(Unique identifier for string)に関する情報

データファイル legenda_case_sensitive_sui.zip (323 KB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
sui Unique identifier for string
method 方法のフラグ(r:ルールにより設定した(n文字以下など)、f:フラグにより設定した(ストリングのリストなど))
date タイムスタンプ
トップに戻る

2.4 concept_index

データ名 concept_index
データ内容の説明

文献中にあらわれるconceptのインデックス

データファイル legenda_concept_index.zip (846 MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
str_idx_id string_indexテーブルの主キー
cui Unique Identifier for concept
ambiguous このインデックスに多義語ストリングが位置しているかどうか
acrotagger_solve_status http://www.ebi.ac.uk/Rebholz/software.htmlで紹介されているAcroTaggerというツールを適用した結果。結局AcrotaggerはLEGENDAに導入されていないため、空欄である。
legenda_solve_status 0: 多義語でない、1: 文脈により多義語を解決した 2: 多義語を最もメジャーなコンセプトに倒した、3: カウントが0のためメジャーなコンセプトか判断ができなかったが、1つのコンセプトに倒した
トップに戻る

2.5 cui_cooc_pair_probability_info_by_doc

データ名 cui_cooc_pair_probability_info_by_doc
データ内容の説明

論文(http://www.biomedcentral.com/1471-2105/5/145)のequation(2)に関する情報

データファイル legenda_cui_cooc_pair_probability_info_by_doc.zip (953 MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
cui1 Unique identifier for concept 1
cui2 Unique identifier for concept 2
max_before_first_occurrence_rec_cooccurence Max(Af、Bf)の値
total_rec_count Tabの値
probability Pabの値
mim 2つの確率変数の相互依存の尺度(Mutual Information Measure(equation(1)におけるPab/(Pa * Pb)の値)
トップに戻る

2.6 cui_probability_info_by_doc

データ名 cui_probability_info_by_doc
データ内容の説明

論文(http://www.biomedcentral.com/1471-2105/5/145)のequation(3)(4)に関する情報

データファイル legenda_cui_probability_info_by_doc.zip (2.9 MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
cui Unique identifier for concept
before_first_occurrence_rec_count Af、Bfの値
total_rec_count Ta、Tbの値
probability Pa、Pbの値
トップに戻る

2.7 cui_to_dictionary_category

データ名 cui_to_dictionary_category
データ内容の説明

cui(Unique identifier for concept)に対する辞書カテゴリIDの割り当てデータ

データファイル legenda_cui_to_dictionary_category.zip (3.1 MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
cui Unique identifier for concept
dictionary_category_id 1:遺伝子、2:疾患、4:遺伝子機能、5:物質
トップに戻る

2.8 dcooc_summary

データ名 dcooc_summary
データ内容の説明

ストリングのペアが何件かの直接共起をもつ情報のサマリー

データファイル legenda_dcooc_summary.zip (308 MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
sui1 Unique identifier for string 1
cui1 Unique identifier for concept 1
sui2 Unique identifier for string 2
cui2 Unique identifier for concept 2
num_coocs 文共起の件数
num_docs 文共起が存在する文献の件数
トップに戻る

2.9 dictionary_category

データ名 dictionary_category
データ内容の説明

辞書のカテゴリ情報

データファイル legenda_dictionary_category.zip (253 B)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
name カテゴリ名
トップに戻る

2.10 direct_cooc

データ名 direct_cooc
データ内容の説明

全ての行が「cui1<= cui2, !(sui1 == sui2 && cui1== cui2)」を満たす文共起データ

データファイル legenda_direct_cooc.zip (2.0 GB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
string_index_id1 string_index用キーid
sui1 Unique identifier for string 1
cui1 Unique identifier for concept 1
string_index_id2 string_index用キーid
sui2 Unique identifier for string 2
cui2 Unique identifier for concept 2
トップに戻る

2.11 direct_cui_relation

データ名 direct_cui_relation
データ内容の説明

コンセプトペアに対して、MIMスコア、直接共起数、出現ドキュメント数を記録した情報であり、Relation Viewを表示するために検索データとして利用している

データファイル legenda_direct_cui_relation.zip (908 MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
cui1 Unique Identifier for concept 1
cui2 Unique Identifier for concept 2
mim cui1、cui2に関するMIMスコア
num_coocs 文共起の件数
num_docs cui1とcui2のペアによる文共起が存在する文献の件数
トップに戻る

2.12 medline

データ名 medline
データ内容の説明

MEDLINEのPMIDとPubDateタグ内の出版年情報をXML形式で格納したデータ

データファイル legenda_medline.zip (9.6 GB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
pmid PubMed ID
xml MEDLINEのPubDateタグ内の出版年情報(XML形式)
トップに戻る

2.13 medline_pubdate

データ名 medline_pubdate
データ内容の説明

MEDLINEのPMIDとPubDateタグ内の出版年情報をDBのDATE型に変換したデータ

データファイル legenda_medline_pubdate.zip (102 MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
pmid PubMed ID
pubdate MEDLINEのPubDateタグ内の出版年情報(Date型)
トップに戻る

2.14 mrcon

データ名 mrcon
データ内容の説明

コンセプトに関する情報(UMLS MetathesaurusのMRCONファイルに対応するデータ)

データファイル legenda_mrcon.zip (29 MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
cui Unique identifier for concept
lat Language of term
ts conceptの中の代表termかどうかを示すTerm status
lui Unique identifier for term
stt termの中の代表stringかどうかを示すString type
sui Unique identifier for string
str String
lrl cui,suiでMRSOを引いた時に最も低いcrlの値であるLeast restriction level
トップに戻る

2.15 mrso

データ名 mrso
データ内容の説明

ソースデータに関する情報(UMLS MetathesaurusのMRSOファイルに対応するデータ)

データファイル legenda_mrso.zip (18 MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
cui Unique identifier of concept
lui Unique identifier of term
sui Unique identifier of string
sab Abbreviated source name for source vocabulary (由来するDBの略称)
tty Abbreviated for term type name in source vocabulary(termの分野の略称)
code Unique identifier or code for string in that source(由来するDB内でのID)
srl Source restriction level(由来するDBのデータライセンスレベル)
トップに戻る

2.16 ner_index

データ名 ner_index
データ内容の説明

NER(Named Entity Recognition)ツールにstring_indexデータを処理した結果

データファイル legenda_ner_index.zip (903 MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
str_idx_id string_indexテーブルの主キー
category NERツールで対象とした辞書カテゴリID
ner 対象とするstring_indexを辞書カテゴリIDに対応するNamed Entityとして認識できるか否かを示すフラグ(0:認識できない、1:認識できる)
トップに戻る

2.17 omim_disease_gene_relation

データ名 omim_disease_gene_relation
データ内容の説明

Relation ViewページでOMIMへのリンクを表示するためのID対応表。遺伝子と疾患の関係の場合、このテーブルとmrsoテーブルに対して2つのcuiで検索することで、mim_numberのリストが取得可能となる。

データファイル legenda_omim_disease_gene_relation.zip (152 KB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
disease_cui 疾患のcui
disease_name 疾患名
mim_number 疾患に対応するOMIMのID
gene_id 遺伝子に対応するEntrezGeneのGene ID
gene_name 遺伝子名
トップに戻る

2.18 string_index

データ名 string_index
データ内容の説明

文献中にあらわれるstringのインデックス

データファイル legenda_string_index.zip (1.7 GB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
pmid sui(Unique Identifier for string)が出現しているPubMed ID
sen_id suiが出現しているセンテンスID(0=タイトル、1=アブストラクトの一文目)
index_start pmid、sen_id中のsuiに対応するストリングの出現開始位置(0始まり)
index_end pmid、sen_id中のsuiに対応するストリングの出現修了位置
sui インデックスされているストリングに対応するsui
トップに戻る

2.19 suppress_on_multisense_solve_failure_sui

データ名 suppress_on_multisense_solve_failure_sui
データ内容の説明

文脈を利用した多義語の解決に失敗した際にインデックスを無効とするsuiのリスト

データファイル legenda_suppress_on_multisense_solve_failure_sui.zip (1.4 KB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
sui Unique Identifier for string
method 判断方法(r:ルールにより設定した(n文字以下など)、f:フラグにより設定した(ストリングのリストなど))
date タイムスタンプ
トップに戻る

2.20 suppressed_sui

データ名 suppressed_sui
データ内容の説明

削除状態とするsui(Unique identifier for string)リスト

データファイル legenda_suppressed_sui.zip (3.7 KB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
id ID
sui Unique identifier for string
method 判断方法(r:ルールにより設定した(n文字以下など)、f:フラグにより設定した(ストリングのリストなど))
date タイムスタンプ
トップに戻る

3. 本データベースの利用許諾

利用許諾更新日: 2016/09/30

本データベースは、以下で定める利用許諾に基づきご利用いただくことができます。 本利用許諾は、本データベース利用における許諾内容、及び利用者が従うべき条件を定めています。


Creative Commons License

本データベースの利用許諾は、 クリエイティブ・コモンズ 表示-継承4.0 国際の定める利用許諾です。
本データベースのクレジットは、 ”Legenda © 日紫喜光良 (東邦大学) licensed under CC表示-継承4.0 国際”ですので、 利用にあたり必ず表示してください。

クリエイティブ・コモンズ 表示-継承4.0 国際の概要は こちらです。 具体的な許諾条項は こちらをご覧ください。

本データベースにおいて、以下の条件に従う限り許諾されている事項:

  1. 本データベースの全部または一部に自由にアクセスし、データを取得することができます。
  2. 本データベースの全部または一部のデータを自由に再配布することができます。
  3. 本データベースの全部または一部のデータを利用した、データベースなどの翻案物を自由に作成し、配布することができます。

 

本利用許諾に基づいて利用する際に従うべき条件:

  1. 本データベースの全部または一部、あるいは翻案物の配布に際しては、本データベースの作成者のクレジットを表示しなければなりません。
  2. 本データベースの全部または一部のデータを利用して作成された翻案物は、CC表示-継承4.0(もしくは、それ以降のバージョン)、またはCC表示-継承互換ライセンス(リストはこちら)の下で配布されなければなりません。
  3. 本利用許諾で許諾されていない事項については、以下のデータベース作成者に連絡をとり、利用許諾を求める必要があります。

利用許諾に関する連絡先:
〒259-1193 神奈川県伊勢原市下糟屋143
東海大学伊勢原キャンパス 医学部1号館7階
東海大学 医学部
今西 規
E-mail: imanishi[at]tokai[dot]ac[dot]jp

トップに戻る

4. 更新履歴

更新日更新内容
2016/09/30 生命科学系データベースアーカイブにてダウンロードデータ公開開始
2010/01/31 最新データ(ver.3)に更新
2008/03/07 新Legenda(http://h-invitational.jp/legenda/)で公開開始
2005/07/23 Legenda(http://jbirc.jbic.or.jp/texmining/)で限定公開開始
トップに戻る

5. 参考文献

-
トップに戻る

6. 連絡先

「Legenda」についてのお問い合わせは、下記連絡先までご連絡ください。

〒259-1193 神奈川県伊勢原市下糟屋143

東海大学伊勢原キャンパス 医学部1号館7階

東海大学 医学部

今西 規

E-mail: imanishi[at]tokai[dot]ac[dot]jp

トップに戻る