BH16.12/JSTThesaurus

提供:TogoWiki

移動: 案内, 検索

メンバー:渡邊(JST)、櫛田(NBDC)、増田(阪大)、古崎(阪大)、飯田(DBCLS)、大石 (DOGRUN)

目次

各種言語資源と、JSTシソーラスの比較・接続

  • 日本語ワードネットと、JSTシソーラスの比較・接続
    • ひとまず、シソーラス語に限定して、ラベルマッチ
      • マッチ1件
        • 日本語 4575 英語 2054
      • 複数該当(ワードネットのどの語にあたるか考えないといけない)
        • 日本語 2351 英語 1981


  • DBpedia Japanseseとの比較
    • JSTシソーラス上でskos:broaderで記述された関係性はDBpedia Japanseseではどうか?

(反対方向は、作業途中にDBpedia Japaneseが落ちた?)

図1a1.jpg


    • JSTシソーラス上でskos:narrowerで記述された関係性はDBpedia Japanseseではどうか?

図1b1.jpg


    • JSTシソーラス上でskos:relatedで記述された関係性はDBpedia Japanseseではどうか?

図2.jpg


  • NDL authoritiesとの比較
    • JSTシソーラス上でskos:narrowerで記述された関係性はNDL authoritiesではどうか?

図3.jpg

related86個中、明らかにis-aの上位下位関係20 (12/14渡邊)


    • 中間ノード(2語にskos:narrowerで挟まれた語)は存在するか?

図4.jpg


    • JSTシソーラス上でskos:relatedで記述された関係性はNDL authoritiesではどうか?

図5.jpg

broader183個中、明らかにis-aの上位下位関係45 (12/14渡邊)

JSTシソーラスとMeSHの構造の比較

meshを元にした,JSTシソーラスへの概念追加の提案


12/12の進捗

  • MeshとJSTシソーラス(JST-Cat-L-20161130withCC.ont)のそれぞれのリソースの単純比較を行った.シソーラスのオントロジー約8000のうち約250がmeshと異なる上位概念を持っていた.
  • 中間概念を挟むor is-a関係のつなぎ変えのどちらが必要かの判定はまだ


12/13の進捗

  • JSTシソーラス(JST-Cat-L-20161130withCC.ont)の総概念数8303
    • うちMeshのIDと対応付けられている概念:2161
    • MeshとJSTの上位概念階層の系列が最上位まで一致している:10
    • 一つ上の概念までは,一致している:307


12/14の進捗

  • とりあえずMeSHとJSTの概念階層の単純比較はできた.
  • 2概念間で中間概念が一致しない組み合わせを検出して階層を比較.
    • Mesh:(下位)トリ白血病ウイルス,αレトロウイルス,レトロウイルス科,Oncogenic Viruses,ウイルス(上位)
    • JST: (下位)トリ白血病ウイルス,白血病ウイルス,オンコウイルス,腫瘍ウイルス,ウイルス(上位)
    • 参考:ライフサイエンスシソーラス(ライフサイエンス辞書)では、オンコウイルスと腫瘍ウイルスは同義語(異表記語)関係
  • 中間概念数が同数:208
  • MeSHの方が多い:138
  • JSTの方が多い:151


12/15の進捗

  • meshの階層を利用して,RTを区別するシステムを作りたかったが,RTの性質上かなり困難だとわかったので断念
  • まずは,それぞれの概念階層を詳しく見るために,JSTのオントロジーに含まれる概念ラベルを入力とし,その周囲の概念階層とMeSH中の周囲の階層を出力できるようにした.
  • 検索対象:白血病


JSTシソーラスとMeSHの比較

白血病の「兄弟概念」
JSTシソーラス MeSH
白血病 Histiocytic Disorders Malignant
リンパ腫 白血病
前癌状態 Lymphatic Vessel Tumors
Lymphoma
Neoplasms Complex and Mixed
Neoplasms Connective and Soft Tissue
Neoplasms Germ Cell and Embryonal
Neoplasms Glandular and Epithelial
Neoplasms Gonadal Tissue
Neoplasms Nerve Tissue
Neoplasms Plasma Cell
Neoplasms Vascular Tissue
Nevi and Melanomas
Odontogenic Tumors


白血病の「下位概念」
JSTシソーラス MeSH
下位無し 流行性ウシ白血症
実験的白血病
ネコ白血病
リンパ性白血病
Leukemia Mast-Cell
骨髄性白血病
Leukemia Plasma Cell
放射線白血病


白血病の「上位概念」
JSTシソーラス MeSH
病気 Neoplasms
腫瘍 Neoplasms by Histologic Type

化学物質LODの活用

日化辞化合物に対して、ChEBIのroleの情報を検索、推論する

日化辞ChEBIRole20161215b.png

  • 方法
    • (1)NBDCアーカイブにある(日化辞と他のDBのリンク情報のRDFデータ(UniChem由来))を使ってInChIKeyを使った日化辞化合物とChEBIのマッピングデータを取得。
    • (2)日化辞化合物に対応するChEBIが持つRole(has role)のRole情報を見つける。さらに、そのChEBIの上位概念(subClassOf)が持つRoleの情報を推論する。
  • 準備
  • 以下のクエリーを実行。
define input:same-as "yes"
prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
prefix jst: <http://vocab.jst.go.jp/terms/sti#>
prefix obo: <http://purl.obolibrary.org/obo/>
SELECT distinct  ?nikkaji ?label_nikkaji ?chebi ?label_chebi ?role ?label_role
#SELECT distinct  *
WHERE
{
graph <http://nikkaji.biosciencedbc.jp/link2OtherDBs_basedOnUniChem20180515>{ #InChIKeyによる日化辞化合物と他のDBの化合物のマッピング情報
    ?nikkaji skos:closeMatch ?chebi .}
graph <http://nikkaji.biosciencedbc.jp/ChEBI20170725>{ #ChEBI.owl
    ?upperchebi rdfs:subClassOf [owl:someValuesFrom ?role ; owl:onProperty obo:RO_0000087] .
    ?chebi rdfs:subClassOf* ?upperchebi .
    ?chebi rdfs:label ?label_chebi_t . BIND (STR(?label_chebi_t) as ?label_chebi)
    ?role rdfs:label ?label_role_t . BIND (STR(?label_role_t) as ?label_role)}
graph <http://nikkaji.biosciencedbc.jp/nikkajirdf_core_20180306>{ #日化辞化合物の基本情報(ラベル、タイプなど)
     ?nikkaji rdfs:label ?label_nikkaji . FILTER langMatches( lang(?label_nikkaji), "en" )}
}
limit 100
  • 検索結果(20180802修正)
    • 日化辞化合物: 17,201 (←16,583(/3,420,234)から修正)に対するChEBIのrole: 1,009 (←954から修正) を検索、推論。


適用例1:KNApSAcK に対するChEBIのrole情報の検索、推論

define input:same-as "yes"
prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
prefix jst: <http://vocab.jst.go.jp/terms/sti#>
prefix obo: <http://purl.obolibrary.org/obo/>
SELECT distinct  ?knapsack ?nikkaji ?label_nikkaji ?chebi ?label_chebi ?role ?label_role
WHERE
{
graph <http://nikkaji.biosciencedbc.jp/link2OtherDBs_basedOnUniChem>{ #InChIKeyによる日化辞化合物と他のDBの化合物のマッピング情報
    ?nikkaji skos:closeMatch ?chebi .
    ?nikkaji skos:closeMatch ?knapsack . 
    ?knapsack rdf:type <http://semanticscience.org/resource/SIO_011125> . }
graph <http://nikkaji.biosciencedbc.jp/ChEBI20161201>{ #ChEBI.owl
    ?upperchebi rdfs:subClassOf [owl:someValuesFrom ?role ; owl:onProperty obo:RO_0000087] .
    ?chebi rdfs:subClassOf* ?upperchebi .
    ?chebi rdfs:label ?label_chebi_t . BIND (STR(?label_chebi_t) as ?label_chebi)
    ?role rdfs:label ?label_role_t . BIND (STR(?label_role_t) as ?label_role)}
graph <http://nikkaji.biosciencedbc.jp/Core>{ #日化辞化合物の基本情報(ラベル、タイプなど)
     ?nikkaji rdfs:label ?label_nikkaji . FILTER langMatches( lang(?label_nikkaji), "en" )}
}
  • 検索結果
    • KNApSAcK化合物: 3,090(/24,990)に対するChEBIのrole: 513 を検索、推論。


適用例2:Open TG-GATEs化合物に対するChEBIのrole情報の検索、推論

define input:same-as "yes"
prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
prefix jst: <http://vocab.jst.go.jp/terms/sti#>
prefix obo: <http://purl.obolibrary.org/obo/>
prefix tgo: <http://purl.jp/bio/101/opentggates/ontology/>
prefix tgc: <http://purl.jp/bio/101/opentggates/ChemicalCompound/>
SELECT distinct  ?tgc ?label_tgc ?nikkaji ?label_nikkaji ?chebi ?label_chebi ?role ?label_role
WHERE
{
graph <http://nikkaji.biosciencedbc.jp/link2OtherDBs_basedOnUniChem>{ #InChIKeyによる日化辞化合物と他のDBの化合物のマッピング情報
    ?nikkaji skos:closeMatch ?chebi .
    ?nikkaji skos:closeMatch ?dbs . }
graph <http://nikkaji.biosciencedbc.jp/ChEBI20161201>{ #ChEBI.owl
    ?upperchebi rdfs:subClassOf [owl:someValuesFrom ?role ; owl:onProperty obo:RO_0000087] .
    ?chebi rdfs:subClassOf* ?upperchebi .
    ?chebi rdfs:label ?label_chebi_t . BIND (STR(?label_chebi_t) as ?label_chebi)
    ?role rdfs:label ?label_role_t . BIND (STR(?label_role_t) as ?label_role)}
graph <http://nikkaji.biosciencedbc.jp/Core>{ #日化辞化合物の基本情報(ラベル、タイプなど)
    ?nikkaji rdfs:label ?label_nikkaji . FILTER langMatches( lang(?label_nikkaji), "en" )}
graph <http://nikkaji.biosciencedbc.jp/OTG_compound_type_seeAlso_label20161214>{ #Open TG-GATEs化合物の基本情報(ラベル、タイプなど)
    ?tgc rdfs:seeAlso ?dbs .
    ?tgc rdf:type tgo:Compound . 
    ?tgc rdfs:label ?label_tgc .}
}
  • 検索結果
    • Open TG-GATEs化合物: 119(/166)に対するChEBIのrole: 209 を検索、推論。


日化辞化合物に対するChEBIのLipidのサブカテゴリー情報の検索

  • ChEBIのLipidのサブカテゴリーを以下のように定義
  • 方法
  • 以下のクエリーを実行。
define input:same-as "yes"
prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
prefix jst: <http://vocab.jst.go.jp/terms/sti#>
prefix obo: <http://purl.obolibrary.org/obo/>
SELECT distinct  ?nikkaji ?label_nikkaji ?chebi ?label_chebi ?upperchebi ?label_upperchebi_LipidSubcategory
WHERE
{
graph <http://nikkaji.biosciencedbc.jp/link2OtherDBs_basedOnUniChem>{ #InChIKeyによる日化辞化合物と他のDBの化合物のマッピング情報
    ?nikkaji skos:closeMatch ?chebi .}
graph <http://nikkaji.biosciencedbc.jp/ChEBI20161201>{ #ChEBI.owl
    ?chebi rdfs:subClassOf* <http://purl.obolibrary.org/obo/CHEBI_18059> .
    ?chebi rdfs:label ?label_chebi_t . BIND (STR(?label_chebi_t) as ?label_chebi)
    ?chebi rdfs:subClassOf ?upperchebi .
    ?upperchebi rdfs:label ?label_upperchebi_t . BIND (STR(?label_upperchebi_t) as ?label_upperchebi_LipidSubcategory)}
graph <http://nikkaji.biosciencedbc.jp/Core>{ #日化辞化合物の基本情報(ラベル、タイプなど)
     ?nikkaji rdfs:label ?label_nikkaji . FILTER langMatches( lang(?label_nikkaji), "en" )}
}
  • 検索結果
    • 日化辞化合物: 5,416(/3,420,234)に対して、ChEBIのLipidのサブカテゴリーの概念: 1246 を付与した。


化学物質LODの調査

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . 
@prefix dbpedia: <http://dbpedia.org/resource/> . 
@prefix dbpo: <http://dbpedia.org/ontology/> . 
@prefix category: <http://dbpedia.org/resource/Category:> . 
@prefix dcterms: <http://purl.org/dc/terms/> . 
@prefix wd: <http://www.wikidata.org/entity/> . 
@prefix dbpprop: <http://dbpedia.org/property/> . 
dbpedia:Caffeine
   rdf:type dbpo:ChemicalSubstance, dbpo:Drug, wd:Q8386 ; 
   dbpprop:stdinchikey "RYYVLZVUVIJVGH-UHFFFAOYSA-N"@en ; 
   dcterms:subject category:Ergogenic_aids , 
     category:Ergogenic_aids , 
     category:Glycine_receptor_antagonists , 
     category:Adenosine_receptor_antagonists , 
     category:Alkaloids_found_in_plants , 
     category:Anxiogenics , 
     category:Bitter_compounds , 
     category:Caffeine , 
     category:IARC_Group_3_carcinogens , 
     category:Mutagens , 
     category:Phosphodiesterase_inhibitors , 
     category:Plant_toxin_insecticides , 
     category:Vasoconstrictors , 
     category:Xanthines . 
@prefix wd: <http://www.wikidata.org/entity/> . 
@prefix wdt: <http://www.wikidata.org/prop/direct/> .
wd:Q60235
   wdt:P235 "RYYVLZVUVIJVGH-UHFFFAOYSA-N" ;
   wdt:P231 "58-08-2" ; #P231:CAS Registry Number
   wdt:P2175 wd:Q844935 ; #P2175: medical condition treated, Q844935: coronary artery disease
   wdt:P129 wd:Q3062781 ; #P129: physically interacts with, Q3062781: Adenosine receptor A1
   wdt:P31 wd:Q11173, wd:Q12140 ; #P31: instance of, Q11173: chemical compound, Q12140: pharmaceutical drug
   wdt:P910 wd:Q7321255 . #P910 topic's main category; Q7321255: Caffeine
  • ChEBI
    • SPARQL endpoint
      • 公式のエンドポイントなし?
  • PubChem
    • SPARQL endpoint
      • 公式のエンドポイントなし
# サンプルクエリ
SELECT * WHERE {<http://bio2rdf.org/drugbank:DB00315> ?p ?o. } 
prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>  
prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>  
prefix drugbank: <http://bio2rdf.org/drugbank:> 

SELECT ?nbdc ?label_nbdc ?kegg ?target ?label_target
where
{
SERVICE <http://bio2rdf.org/sparql>{
?drug <http://bio2rdf.org/drugbank_vocabulary:target> ?target ; 
   <http://bio2rdf.org/drugbank_vocabulary:x-kegg> ?kegg . 
?target rdfs:label ?label_target .}

?nbdc rdfs:seeAlso ?kegg ; rdfs:label ?label_nbdc .  
}

ライフサイエンス新着論文レビュー と J-GLOBALの連携

連携できそうなところ(渡邊)

  • 論文の著者情報
    • 著者名(文字列をキーにして検索可能)
    • 名寄せのID(JGPN)
    • (researchmap への情報も特定されている人物のみ)
  • 論文
    • J-GLOBALの論文のページへリンク
  • 論文中の用語
    • 科学技術用語(JSTシソーラス)


等々、有用な情報へリンクできそうだと認識。


企画・開発中から情報にアクセスできるよう、連携を交わし、J-GLOBALのAPI等リソースを利用できるよう調整する。

後日、しかるべき担当者を含めて連絡(渡邊)。

/mw/BH16.12/JSTThesaurus」より作成