科学技術用語形態素解析辞書

2023/06/29


JSTシソーラス(2015年版)の見出し語と同義語を、形態素解析エンジンMeCabのユーザー辞書として使える形にしたデータベース

README 目次

  1. ダウンロードデータの構成
  2. ダウンロードデータの説明
  3. 本データベースの利用許諾
  4. 更新履歴
  5. 参考文献
  6. 連絡先

1. ダウンロードデータの構成

  1. README
  2. MeCab用形態素解析辞書:JSTシソーラス見出し語・同義語
  3. MeCab用形態素解析辞書:J-GLOBAL MeSH
  4. MeCab用形態素解析辞書:日化辞
トップに戻る

2. ダウンロードデータの説明

2.1 README

データ名 README
データ内容 「科学技術用語形態素解析辞書」のダウンロードデータについて説明したHTMLファイル。
ダウンロードファイル名 README.html (日本語)
トップに戻る

2.2 MeCab用形態素解析辞書:JSTシソーラス見出し語・同義語

データ名 MeCab用形態素解析辞書:JSTシソーラス見出し語・同義語
データ内容の説明

JSTシソーラス(2015年版)の見出し語と同義語 (および、語中の全角英数記号を半角化したもの)を、形態素解析エンジンMeCab(http://taku910.github.io/mecab/)のユーザー辞書として使える形にしました。同義語(見出し語フラグが「V」)の読みについては、ライフサイエンス分野(主題カテゴリーに'LSxx'を含むもの、ただし、xxは2桁の数字)と電子計算機分野(主題カテゴリーに'EG01'を含むもの)のものはNBDCで独自に付与、それ以外のものは見出し語の読みを付与しています。
辞書項目はIPA辞書に基づいています。エンコードは、csvファイルはShift-JIS、dicファイルはUTF-8です。
なお、辞書中には語の間の関係に関する情報は入っていませんので、この辞書をシソーラスとして利用することはできません。

データファイル Thesaurus2015.dic.zip (MeCab用dicフォーマット) (7.4 MB)
mecab_thesaurus.zip (csvフォーマット) (3.8 MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
Surface form 表層形:単語そのもの
Left-context ID 左文脈ID:その単語を左から見たときの内部状態ID (http://taku910.github.io/mecab/dic.html参照)
Right-context ID 右文脈ID:その単語を右から見たときの内部状態ID (http://taku910.github.io/mecab/dic.html参照)
Cost コスト:その語の出現しやすさに関するコスト(小さいほど出現しやすい)
POS 品詞
POS subcategory 1 品詞細分類1
POS subcategory 2 品詞細分類2
POS subcategory 3 品詞細分類3
Conjugation type 動詞などの活用型
Conjugation form 品詞の活用形
Base form 原形:単語に対応する見出し語
Reading('Furigana') 読み:原形(見出し語)の読み、見出し語フラグが「V」のときは読みは表層形の読みではない場合がある
Pronunciation 読みから自動生成した発音
Source dictionary ソースとなる辞書、「Thesaurus2015」に固定
ID in Source dictionary ソース辞書中の番号:JSTシソーラスの「語番号」
J-GLOBAL ID J-GLOBALでのID
Headword Flag 見出し語フラグ:
・C: シソーラスの見出し語(あるいはその半角化)
・V: それ以外
Category code 主題カテゴリーコード:JSTシソーラスにおける理工学分野のカテゴリーコード
Common word flag 1 一般語フラグ1:
・1:単独でIPA辞書にある
・0:ない
Common word flag 2 一般語フラグ2:
「IPA辞書解析結果」に基づく
・一般語フラグ1が「1」の場合:品詞名
・一般語フラグ1が「0」の場合:
- UNKNOWN_1:単独の未知語
- UNKNOWN_2:複数形態素に切れて、未知語を含む
- MULTI_WORD:複数形態素に切れるが、すべてIPA辞書中の形態素
IPA dictionary analysis results IPA辞書解析結果:
オリジナルのIPA辞書(+IPA辞書エントリーの英数記号を半角化したエントリーを持つ辞書)を使って形態素解析をした結果。複数語に切れた場合はスペースで区切って連結。ただし、人手によるチェックは行っていない。
「一般語フラグ1」「一般語フラグ2」はこの結果を利用している。
トップに戻る

2.3 MeCab用形態素解析辞書:J-GLOBAL MeSH

データ名 MeCab用形態素解析辞書:J-GLOBAL MeSH
データ内容の説明

J-GLOBAL科学技術用語のうち、米国国立医学図書館(United States National Library of Medicine)の医学件名標目表(Medical Subject Headings,MeSH: https://www.nlm.nih.gov/mesh/)へのリンクを持つものについて、形態素解析エンジンMeCab(http://taku910.github.io/mecab/ )のユーザー辞書として使える形にしました。辞書項目はIPA辞書に基づいています。エンコードは、csvファイルはShift-JIS、dicファイルはUTF-8です。

データファイル JSTMeSH.dic.zip (MeCab用dicフォーマット) (1.2 MB)
mecab_jstmesh.zip (csvフォーマット) (484 KB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
Surface form 表層形:単語そのもの
Left-context ID 左文脈ID:その単語を左から見たときの内部状態ID (http://taku910.github.io/mecab/dic.html参照)
Right-context ID 右文脈ID:その単語を右から見たときの内部状態ID (http://taku910.github.io/mecab/dic.html参照)
Cost コスト:その語の出現しやすさに関するコスト(小さいほど出現しやすい)
POS 品詞
POS subcategory 1 品詞細分類1
POS subcategory 2 品詞細分類2
POS subcategory 3 品詞細分類3
Conjugation type 動詞などの活用型
Conjugation form 品詞の活用形
Base form 原形:単語に対応する見出し語
Reading('Furigana') 読み:(この項目は空白)
Pronunciation 発音:(この項目は空白)
Source dictionary ソースとなる辞書、「MeSH」に固定
ID in Source dictionary ソース辞書中の番号:MeSH UID
J-GLOBAL ID J-GLOBALでのID
Headword Flag 見出し語フラグ:「C」で固定
Category code 主題カテゴリーコード:JSTシソーラスにおける理工学分野のカテゴリーコード
Common word flag 1 一般語フラグ1:
・1:単独でIPA辞書にある
・0:ない
Common word flag 2 一般語フラグ2:
「IPA辞書解析結果」に基づく
・一般語フラグ1が「1」の場合:品詞名
・一般語フラグ1が「0」の場合:
- UNKNOWN_1:単独の未知語
- UNKNOWN_2:複数形態素に切れて、未知語を含む
- MULTI_WORD:複数形態素に切れるが、すべてIPA辞書中の形態素
IPA dictionary analysis results IPA辞書解析結果:
オリジナルのIPA辞書(+IPA辞書エントリーの英数記号を半角化したエントリーを持つ辞書)を使って形態素解析をした結果。複数語に切れた場合はスペースで区切って連結。ただし、人手によるチェックは行っていない。
「一般語フラグ1」「一般語フラグ2」はこの結果を利用している。
トップに戻る

2.4 MeCab用形態素解析辞書:日化辞

データ名 MeCab用形態素解析辞書:日化辞
データ内容の説明

J-GLOBAL科学技術用語のうち、国立研究開発法人科学技術振興機構(JST)が作成する有機化合物辞書データベース「日本化学物質辞書(日化辞)」へのリンクを持つものについて、形態素解析エンジンMeCab(http://taku910.github.io/mecab/ )のユーザー辞書として使える形にしました。辞書項目はIPA辞書に基づいています。エンコードは、csvファイルはShift-JIS、dicファイルはUTF-8です。

データファイル Nikkaji.dic.zip (MeCab用dicフォーマット) (6.6 MB)
mecab_nikkaji.zip (csvフォーマット) (2.4 MB)

データファイルの各列のデータは以下の通りです。
項目名項目の説明
Surface form 表層形:単語そのもの
Left-context ID 左文脈ID:その単語を左から見たときの内部状態ID (http://taku910.github.io/mecab/dic.html参照)
Right-context ID 右文脈ID:その単語を右から見たときの内部状態ID (http://taku910.github.io/mecab/dic.html参照)
Cost コスト:その語の出現しやすさに関するコスト(小さいほど出現しやすい)
POS 品詞
POS subcategory 1 品詞細分類1
POS subcategory 2 品詞細分類2
POS subcategory 3 品詞細分類3
Conjugation type 動詞などの活用型
Conjugation form 品詞の活用形
Base form 原形:単語に対応する見出し語
Reading('Furigana') 読み:(この項目は空白)
Pronunciation 発音:(この項目は空白)
Source dictionary ソースとなる辞書、「Nikkaji」に固定
ID in Source dictionary ソース辞書中の番号:日化辞番号
J-GLOBAL ID J-GLOBALでのID
Headword Flag 見出し語フラグ:「C」で固定
Category code 主題カテゴリーコード:JSTシソーラスにおける理工学分野のカテゴリーコード
Common word flag 1 一般語フラグ1:
・1:単独でIPA辞書にある
・0:ない
Common word flag 2 一般語フラグ2:
「IPA辞書解析結果」に基づく
・一般語フラグ1が「1」の場合:品詞名
・一般語フラグ1が「0」の場合:
- UNKNOWN_1:単独の未知語
- UNKNOWN_2:複数形態素に切れて、未知語を含む
- MULTI_WORD:複数形態素に切れるが、すべてIPA辞書中の形態素
IPA dictionary analysis results IPA辞書解析結果:
オリジナルのIPA辞書(+IPA辞書エントリーの英数記号を半角化したエントリーを持つ辞書)を使って形態素解析をした結果。複数語に切れた場合はスペースで区切って連結。ただし、人手によるチェックは行っていない。
「一般語フラグ1」「一般語フラグ2」はこの結果を利用している。
トップに戻る

3. 本データベースの利用許諾

利用許諾更新日: 2023/06/29

本データベースは、以下で定める利用許諾に基づきご利用いただくことができます。 本利用許諾は、本データベース利用における許諾内容、及び利用者が従うべき条件を定めています。


Creative Commons License

本データベースの利用許諾は、 クリエイティブ・コモンズ 表示-継承4.0 国際の定める利用許諾です。
本データベースのクレジットは、 ”科学技術用語形態素解析辞書 © バイオサイエンスデータベースセンター licensed under CC表示-継承4.0 国際”ですので、 利用にあたり必ず表示してください。

クリエイティブ・コモンズ 表示4.0 国際の概要は こちらです。 具体的な許諾条項は こちらをご覧ください。

本データベースにおいて、以下の条件に従う限り許諾されている事項:

  1. 本データベースの全部または一部に自由にアクセスし、データを取得することができます。
  2. 本データベースの全部または一部のデータを自由に再配布することができます。
  3. 本データベースの全部または一部のデータを利用した、データベースなどの翻案物を自由に作成し、配布することができます。

 

本利用許諾に基づいて利用する際に従うべき条件:

  1. 本データベースの全部または一部、あるいは翻案物の配布に際しては、本データベースの作成者のクレジットを表示しなければなりません。
  2. 本データベースの全部または一部のデータを利用して作成された翻案物は、CC表示-継承4.0(もしくは、それ以降のバージョン)、またはCC表示-継承互換ライセンス(リストはこちら)の下で配布されなければなりません。
  3. 本利用許諾で許諾されていない事項については、以下のデータベース作成者に連絡をとり、利用許諾を求める必要があります。

NBDC
〒113-0032 東京都千代田区四番町5-3 サイエンスプラザ
TEL: 03-5214-8491
FAX: 03-5214-8470
お問い合わせ : https://form2.jst.go.jp/s/contact_nbdc

トップに戻る

4. 更新履歴

更新日更新内容
2021/12/07 辞書の名称を以下の通り変更。
  • MeCab用形態素解析辞書:JSTシソーラス見出し語・同義語
  • MeCab用形態素解析辞書:J-GLOBAL MeSH
  • MeCab用形態素解析辞書:日化辞
2019/05/17 アーカイブ V2 をリリース
2018/06/04 生命科学系データベースアーカイブにてダウンロードデータ公開開始
(アーカイブ V1)
トップに戻る

5. 参考文献

建石由佳, 信定知江, 高木利久
JST科学技術用語シソーラスに基づくMeCab用専門用語辞書
言語処理学会第23回年次大会、P7-1 (予稿集 pp485-488)、2017年3月

トップに戻る

6. 連絡先

「科学技術用語形態素解析辞書」についてのお問い合わせは、下記連絡先までご連絡ください。

NBDC
〒113-0032 東京都千代田区四番町5-3 サイエンスプラザ
Tel. 03-5214-8491
Fax. 03-5214-8470

お問い合わせ : https://form2.jst.go.jp/s/contact_nbdc

トップに戻る