- あのデータベースが、丸ごとダウンロード可能に!-
[ Japanese | English ]
このデータベースについて

MeCab用形態素解析辞書:J-GLOBAL MeSH

データ説明
データ名
MeCab用形態素解析辞書:J-GLOBAL MeSH
DOI
10.18908/lsdba.nbdc02358-002.V002
バージョン
V2 10.18908/lsdba.nbdc02358-002.V002 -
V1 10.18908/lsdba.nbdc02358-002.V001 -
データ内容の説明
J-GLOBAL科学技術用語のうち、米国国立医学図書館(United States National Library of Medicine)の医学件名標目表(Medical Subject Headings,MeSH: <a href="https://www.nlm.nih.gov/mesh/" target="_blank">https://www.nlm.nih.gov/mesh/</a>)へのリンクを持つものについて、形態素解析エンジンMeCab(<a href="http://taku910.github.io/mecab/" target="_blank">http://taku910.github.io/mecab/</a> )のユーザー辞書として使える形にしました。辞書項目はIPA辞書に基づいています。エンコードは、csvファイルはShift-JIS、dicファイルはUTF-8です。
データファイル
データファイル名 :
JSTMeSH.dic.zip (MeCab用dicフォーマット)
データのURL :
ファイルサイズ :
1.2 MB
簡易検索URL
http://togodb.biosciencedbc.jp/togodb/view/mecab_jstmesh
データ取得方法

(mecab-ipadic-2.7.0-20070801、 上記MeCabのサイトよりダウンロード)、J-GLOBAL Knowledge

解析方法

-

データ件数

15,425件

データ詳細
項目名 項目の説明
Surface form

表層形:単語そのもの

Left-context ID

左文脈ID:その単語を左から見たときの内部状態ID (http://taku910.github.io/mecab/dic.html参照)

Right-context ID

右文脈ID:その単語を右から見たときの内部状態ID (http://taku910.github.io/mecab/dic.html参照)

Cost

コスト:その語の出現しやすさに関するコスト(小さいほど出現しやすい)

POS

品詞

POS subcategory 1

品詞細分類1

POS subcategory 2

品詞細分類2

POS subcategory 3

品詞細分類3

Conjugation type

動詞などの活用型

Conjugation form

品詞の活用形

Base form

原形:単語に対応する見出し語

Reading('Furigana')

読み:(この項目は空白)

Pronunciation

発音:(この項目は空白)

Source dictionary

ソースとなる辞書、「MeSH」に固定

ID in Source dictionary

ソース辞書中の番号:MeSH UID

J-GLOBAL ID

J-GLOBALでのID

Headword Flag

見出し語フラグ:「C」で固定

Category code

主題カテゴリーコード:JSTシソーラスにおける理工学分野のカテゴリーコード

Common word flag 1

一般語フラグ1:・1:単独でIPA辞書にある・0:ない

Common word flag 2

一般語フラグ2:「IPA辞書解析結果」に基づく・一般語フラグ1が「1」の場合:品詞名・一般語フラグ1が「0」の場合:- UNKNOWN_1:単独の未知語- UNKNOWN_2:複数形態素に切れて、未知語を含む- MULTI_WORD:複数形態素に切れるが、すべてIPA辞書中の形態素

IPA dictionary analysis results

IPA辞書解析結果:オリジナルのIPA辞書(+IPA辞書エントリーの英数記号を半角化したエントリーを持つ辞書)を使って形態素解析をした結果。複数語に切れた場合はスペースで区切って連結。ただし、人手によるチェックは行っていない。「一般語フラグ1」「一般語フラグ2」はこの結果を利用している。