BH16.12/JSTThesaurus
提供:TogoWiki
メンバー:渡邊(JST)、櫛田(NBDC)、増田(阪大)、古崎(阪大)、飯田(DBCLS)、大石 (DOGRUN)
目次 |
各種言語資源と、JSTシソーラスの比較・接続
- 日本語ワードネットと、JSTシソーラスの比較・接続
- ひとまず、シソーラス語に限定して、ラベルマッチ
- マッチ1件
- 日本語 4575 英語 2054
- 複数該当(ワードネットのどの語にあたるか考えないといけない)
- 日本語 2351 英語 1981
- マッチ1件
- ひとまず、シソーラス語に限定して、ラベルマッチ
- DBpedia Japanseseとの比較
- JSTシソーラス上でskos:broaderで記述された関係性はDBpedia Japanseseではどうか?
(反対方向は、作業途中にDBpedia Japaneseが落ちた?)
- JSTシソーラス上でskos:narrowerで記述された関係性はDBpedia Japanseseではどうか?
- JSTシソーラス上でskos:relatedで記述された関係性はDBpedia Japanseseではどうか?
- NDL authoritiesとの比較
- JSTシソーラス上でskos:narrowerで記述された関係性はNDL authoritiesではどうか?
related86個中、明らかにis-aの上位下位関係20 (12/14渡邊)
- 中間ノード(2語にskos:narrowerで挟まれた語)は存在するか?
- JSTシソーラス上でskos:relatedで記述された関係性はNDL authoritiesではどうか?
broader183個中、明らかにis-aの上位下位関係45 (12/14渡邊)
JSTシソーラスとMeSHの構造の比較
meshを元にした,JSTシソーラスへの概念追加の提案
12/12の進捗
- MeshとJSTシソーラス(JST-Cat-L-20161130withCC.ont)のそれぞれのリソースの単純比較を行った.シソーラスのオントロジー約8000のうち約250がmeshと異なる上位概念を持っていた.
- 中間概念を挟むor is-a関係のつなぎ変えのどちらが必要かの判定はまだ
12/13の進捗
- JSTシソーラス(JST-Cat-L-20161130withCC.ont)の総概念数8303
- うちMeshのIDと対応付けられている概念:2161
- MeshとJSTの上位概念階層の系列が最上位まで一致している:10
- 一つ上の概念までは,一致している:307
12/14の進捗
- とりあえずMeSHとJSTの概念階層の単純比較はできた.
- 2概念間で中間概念が一致しない組み合わせを検出して階層を比較.
- Mesh:(下位)トリ白血病ウイルス,αレトロウイルス,レトロウイルス科,Oncogenic Viruses,ウイルス(上位)
- JST: (下位)トリ白血病ウイルス,白血病ウイルス,オンコウイルス,腫瘍ウイルス,ウイルス(上位)
- 参考:ライフサイエンスシソーラス(ライフサイエンス辞書)では、オンコウイルスと腫瘍ウイルスは同義語(異表記語)関係
- 中間概念数が同数:208
- MeSHの方が多い:138
- JSTの方が多い:151
12/15の進捗
- meshの階層を利用して,RTを区別するシステムを作りたかったが,RTの性質上かなり困難だとわかったので断念
- まずは,それぞれの概念階層を詳しく見るために,JSTのオントロジーに含まれる概念ラベルを入力とし,その周囲の概念階層とMeSH中の周囲の階層を出力できるようにした.
- 検索対象:白血病
JSTシソーラスとMeSHの比較
JSTシソーラス | MeSH |
---|---|
白血病 | Histiocytic Disorders Malignant |
リンパ腫 | 白血病 |
前癌状態 | Lymphatic Vessel Tumors |
Lymphoma | |
Neoplasms Complex and Mixed | |
Neoplasms Connective and Soft Tissue | |
Neoplasms Germ Cell and Embryonal | |
Neoplasms Glandular and Epithelial | |
Neoplasms Gonadal Tissue | |
Neoplasms Nerve Tissue | |
Neoplasms Plasma Cell | |
Neoplasms Vascular Tissue | |
Nevi and Melanomas | |
Odontogenic Tumors |
JSTシソーラス | MeSH |
---|---|
下位無し | 流行性ウシ白血症 |
実験的白血病 | |
ネコ白血病 | |
リンパ性白血病 | |
Leukemia Mast-Cell | |
骨髄性白血病 | |
Leukemia Plasma Cell | |
放射線白血病 |
JSTシソーラス | MeSH |
---|---|
病気 | Neoplasms |
腫瘍 | Neoplasms by Histologic Type |
化学物質LODの活用
日化辞化合物に対して、ChEBIのroleの情報を検索、推論する
- ChEBIのroleの例、application (例、 anti-inflammatory drug )、 biological role (例、 apoptosis inhibitor), chemical role (例、antioxidant))←CHEBI Ontology
- データ構造(http://www.kanzaki.com/works/2009/pub/graph-draw で作成)、参考:2015年頃のChEBIのデータ構造
- 方法
- (1)NBDCアーカイブにある(日化辞と他のDBのリンク情報のRDFデータ(UniChem由来))を使ってInChIKeyを使った日化辞化合物とChEBIのマッピングデータを取得。
- (2)日化辞化合物に対応するChEBIが持つRole(has role)のRole情報を見つける。さらに、そのChEBIの上位概念(subClassOf)が持つRoleの情報を推論する。
- 準備
- chebi.owlを開発用エンドポイントにアップ。←ChEBIのエンドポイントが見つからない。
- 日化辞と他のDBのリンク情報のRDFデータ(UniChem由来)を開発用エンドポイントにアップ。←このデータセットはRDFポータル(日化辞のグラフ)に追加予定。
- 以下のクエリーを実行。
define input:same-as "yes" prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> prefix jst: <http://vocab.jst.go.jp/terms/sti#> prefix obo: <http://purl.obolibrary.org/obo/> SELECT distinct ?nikkaji ?label_nikkaji ?chebi ?label_chebi ?role ?label_role #SELECT distinct * WHERE { graph <http://nikkaji.biosciencedbc.jp/link2OtherDBs_basedOnUniChem20180515>{ #InChIKeyによる日化辞化合物と他のDBの化合物のマッピング情報 ?nikkaji skos:closeMatch ?chebi .} graph <http://nikkaji.biosciencedbc.jp/ChEBI20170725>{ #ChEBI.owl ?upperchebi rdfs:subClassOf [owl:someValuesFrom ?role ; owl:onProperty obo:RO_0000087] . ?chebi rdfs:subClassOf* ?upperchebi . ?chebi rdfs:label ?label_chebi_t . BIND (STR(?label_chebi_t) as ?label_chebi) ?role rdfs:label ?label_role_t . BIND (STR(?label_role_t) as ?label_role)} graph <http://nikkaji.biosciencedbc.jp/nikkajirdf_core_20180306>{ #日化辞化合物の基本情報(ラベル、タイプなど) ?nikkaji rdfs:label ?label_nikkaji . FILTER langMatches( lang(?label_nikkaji), "en" )} } limit 100
- 検索結果(20180802修正)
- 日化辞化合物: 16,583(/3,420,234)に対するChEBIのrole: 954 を検索、推論。
適用例1:KNApSAcK に対するChEBIのrole情報の検索、推論
define input:same-as "yes" prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> prefix jst: <http://vocab.jst.go.jp/terms/sti#> prefix obo: <http://purl.obolibrary.org/obo/> SELECT distinct ?knapsack ?nikkaji ?label_nikkaji ?chebi ?label_chebi ?role ?label_role WHERE { graph <http://nikkaji.biosciencedbc.jp/link2OtherDBs_basedOnUniChem>{ #InChIKeyによる日化辞化合物と他のDBの化合物のマッピング情報 ?nikkaji skos:closeMatch ?chebi . ?nikkaji skos:closeMatch ?knapsack . ?knapsack rdf:type <http://semanticscience.org/resource/SIO_011125> . } graph <http://nikkaji.biosciencedbc.jp/ChEBI20161201>{ #ChEBI.owl ?upperchebi rdfs:subClassOf [owl:someValuesFrom ?role ; owl:onProperty obo:RO_0000087] . ?chebi rdfs:subClassOf* ?upperchebi . ?chebi rdfs:label ?label_chebi_t . BIND (STR(?label_chebi_t) as ?label_chebi) ?role rdfs:label ?label_role_t . BIND (STR(?label_role_t) as ?label_role)} graph <http://nikkaji.biosciencedbc.jp/Core>{ #日化辞化合物の基本情報(ラベル、タイプなど) ?nikkaji rdfs:label ?label_nikkaji . FILTER langMatches( lang(?label_nikkaji), "en" )} }
- 検索結果
- KNApSAcK化合物: 3,090(/24,990)に対するChEBIのrole: 513 を検索、推論。
適用例2:Open TG-GATEs化合物に対するChEBIのrole情報の検索、推論
define input:same-as "yes" prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> prefix jst: <http://vocab.jst.go.jp/terms/sti#> prefix obo: <http://purl.obolibrary.org/obo/> prefix tgo: <http://purl.jp/bio/101/opentggates/ontology/> prefix tgc: <http://purl.jp/bio/101/opentggates/ChemicalCompound/> SELECT distinct ?tgc ?label_tgc ?nikkaji ?label_nikkaji ?chebi ?label_chebi ?role ?label_role WHERE { graph <http://nikkaji.biosciencedbc.jp/link2OtherDBs_basedOnUniChem>{ #InChIKeyによる日化辞化合物と他のDBの化合物のマッピング情報 ?nikkaji skos:closeMatch ?chebi . ?nikkaji skos:closeMatch ?dbs . } graph <http://nikkaji.biosciencedbc.jp/ChEBI20161201>{ #ChEBI.owl ?upperchebi rdfs:subClassOf [owl:someValuesFrom ?role ; owl:onProperty obo:RO_0000087] . ?chebi rdfs:subClassOf* ?upperchebi . ?chebi rdfs:label ?label_chebi_t . BIND (STR(?label_chebi_t) as ?label_chebi) ?role rdfs:label ?label_role_t . BIND (STR(?label_role_t) as ?label_role)} graph <http://nikkaji.biosciencedbc.jp/Core>{ #日化辞化合物の基本情報(ラベル、タイプなど) ?nikkaji rdfs:label ?label_nikkaji . FILTER langMatches( lang(?label_nikkaji), "en" )} graph <http://nikkaji.biosciencedbc.jp/OTG_compound_type_seeAlso_label20161214>{ #Open TG-GATEs化合物の基本情報(ラベル、タイプなど) ?tgc rdfs:seeAlso ?dbs . ?tgc rdf:type tgo:Compound . ?tgc rdfs:label ?label_tgc .} }
- 検索結果
- Open TG-GATEs化合物: 119(/166)に対するChEBIのrole: 209 を検索、推論。
日化辞化合物に対するChEBIのLipidのサブカテゴリー情報の検索
- ChEBIのLipidのサブカテゴリーを以下のように定義
- liped の下位にあるInChIKeyの情報を持たない中間概念(例、steroid hormone)
- 方法
- (1)NBDCアーカイブにある(日化辞と他のDBのリンク情報のRDFデータ(UniChem由来))を使ってInChIKeyを使った日化辞化合物とChEBIのマッピングデータを取得。
- (2)日化辞化合物に対応するChEBIの直近の上位(subClassOf)でInChIKeyの情報を持たない中間概念を見つける。
- 以下のクエリーを実行。
define input:same-as "yes" prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> prefix jst: <http://vocab.jst.go.jp/terms/sti#> prefix obo: <http://purl.obolibrary.org/obo/> SELECT distinct ?nikkaji ?label_nikkaji ?chebi ?label_chebi ?upperchebi ?label_upperchebi_LipidSubcategory WHERE { graph <http://nikkaji.biosciencedbc.jp/link2OtherDBs_basedOnUniChem>{ #InChIKeyによる日化辞化合物と他のDBの化合物のマッピング情報 ?nikkaji skos:closeMatch ?chebi .} graph <http://nikkaji.biosciencedbc.jp/ChEBI20161201>{ #ChEBI.owl ?chebi rdfs:subClassOf* <http://purl.obolibrary.org/obo/CHEBI_18059> . ?chebi rdfs:label ?label_chebi_t . BIND (STR(?label_chebi_t) as ?label_chebi) ?chebi rdfs:subClassOf ?upperchebi . ?upperchebi rdfs:label ?label_upperchebi_t . BIND (STR(?label_upperchebi_t) as ?label_upperchebi_LipidSubcategory)} graph <http://nikkaji.biosciencedbc.jp/Core>{ #日化辞化合物の基本情報(ラベル、タイプなど) ?nikkaji rdfs:label ?label_nikkaji . FILTER langMatches( lang(?label_nikkaji), "en" )} }
- 検索結果
- 日化辞化合物: 5,416(/3,420,234)に対して、ChEBIのLipidのサブカテゴリーの概念: 1246 を付与した。
化学物質LODの調査
- DBpedia
- SPARQL endpoint
- https://dbpedia.org/sparql ←化合物の種類: 17,462、Caffeineのトリプル数: 95、InChIKeyの情報: 未収録(20161214時点)
- http://live.dbpedia.org/sparql ←化合物の種類: 18,244、Caffeineのトリプル数: 169、InChIKeyの情報: 収録(20161214時点)、参考:DBpedia Liveについて
- http://factforge.net/sparql ←???、Caffeineのトリプル数: 504、InChIKeyの情報: 収録(20161214時点)
- SERVICE句を使ったFederated Searchの可否
- DBpeida→他のEndpoint(http://sparql.uniprot.org/ ): 不可
- 他のEndpoint(http://sparql.uniprot.org/ )→DBpeida: 可
- トリプルの例(http://live.dbpedia.org/sparql)
- SPARQL endpoint
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix dbpedia: <http://dbpedia.org/resource/> . @prefix dbpo: <http://dbpedia.org/ontology/> . @prefix category: <http://dbpedia.org/resource/Category:> . @prefix dcterms: <http://purl.org/dc/terms/> . @prefix wd: <http://www.wikidata.org/entity/> . @prefix dbpprop: <http://dbpedia.org/property/> . dbpedia:Caffeine rdf:type dbpo:ChemicalSubstance, dbpo:Drug, wd:Q8386 ; dbpprop:stdinchikey "RYYVLZVUVIJVGH-UHFFFAOYSA-N"@en ; dcterms:subject category:Ergogenic_aids , category:Ergogenic_aids , category:Glycine_receptor_antagonists , category:Adenosine_receptor_antagonists , category:Alkaloids_found_in_plants , category:Anxiogenics , category:Bitter_compounds , category:Caffeine , category:IARC_Group_3_carcinogens , category:Mutagens , category:Phosphodiesterase_inhibitors , category:Plant_toxin_insecticides , category:Vasoconstrictors , category:Xanthines .
- Wikidata
- SPARQL endpoint
- https://query.wikidata.org/ ←化合物の種類: ?、Caffeineのトリプル数: 371、InChIKeyの情報: 収録(20161214時点)
- SERVICE句を使ったFederated Searchの可否
- Wikidata→他のEndpoint(http://sparql.uniprot.org/ ): 不可
- 他のEndpoint(http://sparql.uniprot.org/ )→Wikidata: 不可
- トリプルの例
- SPARQL endpoint
@prefix wd: <http://www.wikidata.org/entity/> . @prefix wdt: <http://www.wikidata.org/prop/direct/> . wd:Q60235 wdt:P235 "RYYVLZVUVIJVGH-UHFFFAOYSA-N" ; wdt:P231 "58-08-2" ; #P231:CAS Registry Number wdt:P2175 wd:Q844935 ; #P2175: medical condition treated, Q844935: coronary artery disease wdt:P129 wd:Q3062781 ; #P129: physically interacts with, Q3062781: Adenosine receptor A1 wdt:P31 wd:Q11173, wd:Q12140 ; #P31: instance of, Q11173: chemical compound, Q12140: pharmaceutical drug wdt:P910 wd:Q7321255 . #P910 topic's main category; Q7321255: Caffeine
- ChEMBL
- SPARQL endpoint
- SERVICE句を使ったFederated Searchの可否
- ChEMBL→他のEndpoint(http://sparql.uniprot.org/ ): 可
- 他のEndpoint(http://sparql.uniprot.org/ )→ChEMBL: 可
- ChEBI
- SPARQL endpoint
- 公式のエンドポイントなし?
- SPARQL endpoint
- PubChem
- SPARQL endpoint
- 公式のエンドポイントなし
- SPARQL endpoint
- UniProt
- SPARQL endpoint
- SERVICE句を使ったFederated Searchの可否
- UniProt→他のEndpoint(http://live.dbpedia.org/sparql/ ): 可
- 他のEndpoint(http://live.dbpedia.org/sparql/ )→UniProt: 可
- Bio2RDF
- SPARQL endpoint
# サンプルクエリ SELECT * WHERE {<http://bio2rdf.org/drugbank:DB00315> ?p ?o. }
- SERVICE句を使ったFederated Searchの可否
- Bio2RDF→他のEndpoint(http://sparql.uniprot.org/ ): 可
- 他のEndpoint(http://sparql.uniprot.org/ )→Bio2RDF: 可
- DrugBankを用いたRDFポータル内の化合物(KEGG)に対する相互作用情報の検索
- SERVICE句を使ったFederated Searchの可否
prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> prefix drugbank: <http://bio2rdf.org/drugbank:> SELECT ?nbdc ?label_nbdc ?kegg ?target ?label_target where { SERVICE <http://bio2rdf.org/sparql>{ ?drug <http://bio2rdf.org/drugbank_vocabulary:target> ?target ; <http://bio2rdf.org/drugbank_vocabulary:x-kegg> ?kegg . ?target rdfs:label ?label_target .} ?nbdc rdfs:seeAlso ?kegg ; rdfs:label ?label_nbdc . }
ライフサイエンス新着論文レビュー と J-GLOBALの連携
連携できそうなところ(渡邊)
- 論文の著者情報
- 著者名(文字列をキーにして検索可能)
- 名寄せのID(JGPN)
- (researchmap への情報も特定されている人物のみ)
- 論文
- J-GLOBALの論文のページへリンク
- 論文中の用語
- 科学技術用語(JSTシソーラス)
等々、有用な情報へリンクできそうだと認識。
企画・開発中から情報にアクセスできるよう、連携を交わし、J-GLOBALのAPI等リソースを利用できるよう調整する。
後日、しかるべき担当者を含めて連絡(渡邊)。