BH11.11/dbarchive-rdf/

提供:TogoWiki

2011年11月23日 (水) 07:59時点におけるJdkim (トーク | 投稿記録)による版
移動: 案内, 検索

DBアーカイブのRDF化

目標: データベースアーカイブのメタデータを RDF 化する

手間ひまかけて RDF 化するなら,計画中の統合検索に使えるものにしたいですね ^_^

11/21 したこと

  • メタデータを洗い出して整理する
    • アーカイブに含まれるデータの種類をとにかく書き出してみる.眺めて有用な整理方針を検討する.
    • この作業にはデータメタデータ(とDBアーカイブ管理チームが呼んでいる,DBスキーマ集)が有効と思われる.
    • データメタデータのリスト
  • ユースケースの検討
    • クエリ: ヒトとマウスのオーソログで2σ以上同じ組織で発現している gene ペアのリストが欲しい
      • 同じ組織といっても,生物種が違うと一対一対応ができない
      • FANTOM4 (データベースアーカイブ)とEvola(産総研)の組み合わせでできそう
    • アーカイブ内の対応を利用したユースケースも欲しい
  • 利用URIを決定

11/22 したこと

  • データベースアーカイブのどの DB から RDF 化&メタデータの OWL 化をやるべきか
    • 互いに対応付けが可能そうな DB と,外部主要 DB にリンクが多い DB を手分けして 14 DB リストアップ
      • EGTC (マウス: EC細胞のカタログ)
      • germline (マウス: 変異マウスのカタログ)
      • Yeast Interacting Proteins Database (酵母: Y2HDB)
      • Building Yeast cDNA sequecing project (酵母: cDNA)
      • GETDB (ショウジョウバエ: ノックアウトしたショウジョウバエのカタログ)
      • WorTS (線虫: 温度特異性遺伝子をもつ線虫のカタログ)
      • AcEST (シダ: EST)
      • MEDAKA EST (メダカ: EST)
      • MAGEST (マボヤ: EST)
      • Dicty_DB (粘菌: EST)
      • TMPDB (生物全般: 膜貫通領域タンパク質の構造DB)
      • RIKEN SSDB (ヒト・マウス: タンパク3000でのX線構造解析の途中結果の記録と構造)
      • DMPD (ほ乳類)
      • MicroTom BAC Seq (トマト: 品種名マイクロトムのBAC配列)
    • 上記DB の内容を,外部リンクや共通項目が使えそうかという視点で,全てサーベイ (畠中さん)
    • サーベイに基づき,下記6つを選定
      • EGTC (マウス: EC細胞のカタログ)
      • germline (マウス: 変異マウスのカタログ)
      • Yeast Interacting Proteins Database (酵母: Y2HDB)
      • Building Yeast cDNA sequecing project (酵母: cDNA)
      • TMPDB (生物全般: 膜貫通領域タンパク質の構造DB)
      • RIKEN SSDB (ヒト・マウス: タンパク3000でのX線構造解析の途中結果の記録と構造)
  • これら 6 つの DB と産総研 Evola DB について作業開始
    • TogoDB2 を利用してRDF化(作業中)
    • OWL 作成開始(作業中)
    • できた RDF ファイルを1つ試しに bh.dbcls.jp の Virtuoso に入れてみた

11/23 したこと

Evola ヒト、マウスのオーソログ情報 共通のIDをかならず持っているかを確認した。

ヒトはDDBJ/ACCESSIONをもっているが、 マウスはACCESSION, Eensembl, RefSeq (/XN,NM,XR/) の3種のいずれかで書かれていることがわかった。 DDBJ/ACCESSION で他のDBとつなげる方針(85%の大多数がつながる)にした。

FANTOMは Entrez Gene ID, gene symbol で書かれていた。

ヒト、マウスともに、ACCESSION, Uniprot(), Entrez Gene ID のセットを準備することにした。

  • 外部のDBのデータをまるごと bh.dbcls.jp に入れるのは今回マシンパフォーマンス的に難しいので,他のチームの真似をして,必要なサブセットだけを入れることに.
    • UniProt
  • リテラルID → URL 変換
    • 一つのリテラルに複数のIDが入っている例を発見.別の predicate を割り当てて,ばらすことに
  • 議論したこと(皆さん書いて書いて!!)
    • FANTOM4を使うか FANTOM3 を使うかの検討

 FANTOM4は1000から2000個の遺伝子(転写因子)の発現量しかない  FANTOM3はNBDCアーカイブにはない 結論:FANTOM4を使う

    • Taiodb (ID対応のデータベース)を作成する

今後汎用的に複数DBをつなげるため、遺伝子、蛋白質のIDの対応表が必要。


TODO:

  • 発現量のシグマを計算してから、CSVを作成する
  • データベースアーカイブ内の6つのDB とEvola に対してOWL作成
    • TogoDB2によってRDFされている各DBのpredicateを収集して初期versionを作る。
    • 既存のオントロジーから対応できる項目を探して繋げる。
      • 一部明らかなのはOWLにimportする。
      • importしないのはmappingをつくる。
  • bh.dbcls.jp の Virtuoso に作業した結果を全部入れる
  • SPARQL クエリを作成
    • Evola をブリッジにマウスとヒトをつなぎ,「クエリ: ヒトとマウスのオーソログで2σ以上同じ組織で発現している gene ペアのリストが欲しい」の結果が得られるように
    • アーカイブ内の6つのDBについては検討中
  • LinkDB との連携

最小手順

  • Table T1 のコラムP1があるとする。
  • T1_RangeOfP1 というクラスを定義する。
  • T1_P1 というプロパティを定義する。
  • T1_P1 rdfs:range T1_RangeOfP1 というトリプルを宣言する。

以上を各テーブルについて行う。その後、複数のテーブルで「同じ」意味のコラムがある場合、

  • T1_RangeOfP1 owl:equivalentClass T2_RangeOfP2 などと宣言する。

参考

個人用ツール