BH12.12/SPARQLthon3/NBRCMedium

提供:TogoWiki

移動: 案内, 検索

目次

SPARQLthonでのシナリオ

  • SPARQLthon1からの続き
  • 関係者でNBRC/JCM の菌株情報をNCBI Taxonomy / UniProt Taxonomy とどのように関係付けるか相談する
  • NBRC菌株ID と Taxonomy ID を関連付けるRDF の作成
  • DDBJの triplestore に蓄積されている、RefSeq GenomeRDF や UniProt RDF と組み合わせたケーススタディを考える
    • NBRC菌株の培養温度情報をトリプルにして、トリプルストアに入れる
    • 培養温度を問い合わせに使ったSPARQLを考えてみる

NBRC菌株名名寄せ結果

  • 森さん@東工大 菌株名寄せ結果報告(ClassB2)
  1. StrainInfoの外部IDのデータセットを取得
  2. NBRC IDとStrainInfo外部IDデータセットの対応をとる
  3. 対応が取れたエントリーのINSDC配列アクセション番号を全て取得
  4. INSDC配列アクセッション番号からエントリーをたどりその中のTaxIDを取得
  5. sort/uniq 一意に決まるものを選抜

内容の確認

  • 資料:名寄せの統計
#NBRC ID A B1 B2 C
716 o o o o
2 o o o -
1060 o o - o
23 o o - -
473 o - o o
33 o - o -
519 o - - o
61 o - - -
73 - o o o
166 - o - o
2 - o - -
1336 - - o o
48 - - o -
12933 - - - o

菌株メタデータ記述のための利用オントロジーと統制語彙の設計

  • Microbial Culture Collection Vocabulary (MCCV) beta2 川島さん@DBCLS
    • 今までの問題点の確認
    • MCCVの構造とタームの概要説明、提案

問題点の共有

  • 他のカルチャーコレクション番号の表現、リンク先のあるものとないもの
  • 菌株名寄せのClassA-Cを分けるためのプロパティ設計
    • relatedToTaxonomyByDBLink, RelatedToTaxonomyBySequence, RelatedToTaxonomyByStrainName
    • relatedToTaxonomy の空白ノード以下 dc:identifier rdf:label
  • 文献情報の記載について
    • 空白ノードの下にdc:を使って表現する
  • タイプストレイン行の中にタイプシリーズの表記がある
    • http://ja.wikipedia.org/wiki/タイプ_(分類学)
    • DB内には詳細なデータがあるがWebからは見えていない
      • 例)Ex-type -> Type yes
    • isTypeStrain booleanで表現する
    • Type seriesなどの表現でEx-type, Ex-halotypeなど格納する...

MCCV beta2のリリース

  • OtherCultureCollectionNumber は、他機関での菌株IDをリテラルとして記述するためのプロパティだったが、実際は、菌株IDだけ利用可能な場合と、そのURIも利用可能な場合があるので、OtherCultureCollectionInfo プロパティを用意した。このプロパティは、ブランクノードを介して、菌株IDおよびあればそのURIを、OtherCultureCollectionNumber および、OtherCultureCollectionURI で記述する。

MCCV beta3のリリース

  • relatedToTaxon というプロパティは、英語としておかしいので、isRelatedToTaxon 〜 に変更した。

MCCV beta4のリリース

  • 全バージョンとの違い
    • 語彙のIDを、mccv:Culture のような可読IDから、MCCV_000001 のような機械的IDに変更した。
    • 英語的な記述は、言語タグを付与して、rdfs:label で、ラベルとして記載。
    • できる限り、日本語タグも付与した。