BH11.11/セマンティックゲノムアノテーションデータベースの試作

提供:TogoWiki

2013年8月21日 (水) 10:32時点におけるTfuji (トーク | 投稿記録)による版
(差分) ←前の版 | 最新版 (差分) | 次の版→ (差分)
移動: 案内, 検索

目次

目的

  • DBCLSにおいて環境などの様々なデータを取り込む上でRDFを利用しゲノム座標系に対してのデータ統合やアノテーション編集が可能なゲノムデータベースの開発試作
  • 統合DB微生物グループにおいてデータ連携・統合に向けたRDF開発と改良

作業手順

  1. ゲノムDB毎のゲノム情報レポートを構成する要素(Stanza)の調査および整理
    1. UniProtとCyanoBaseから抽出したstanza確認 -11/21
    2. RDF表現のDB調査 -11/21,22
    3. Stanzaを構成する元情報のリストおよびRDF要素をKeynoteにまとめ
  2. サンプルRDF開発、作成および収集
  3. Stanzaを構成する情報収集するSPARQL設計
  4. Visualizationの設計

作業項目

ゲノムDB毎のゲノム情報レポートを構成する要素(Stanza)の調査および整理 -11/21

  • UniProtとCyanoBaseから抽出したstanza確認 - 事前調査済 -ktym, so
    Typical constitution of seq DBs
    1. General summary of organisms
    2. General summary
    3. Genomic context
    4. Transcript attributes
    5. Protein attributes
    6. Protein-protein interactions
    7. Visual annotation format
    8. Table annotation format
    9. Homologs (in NR)
    10. Homologs (in selected orgs)
    11. Gene annotation (GO etc.)
    12. References
    13. External links
    14. Mutants
    15. Revision history
    16. API

RDF表現等のDB調査 -11/21,22

  • その他の参考DB
    1. Refseq
    2. ensembl, UCSC -内藤さん siRNA、犬田 SRA
    3. WormBase -GFF3
  • GFF3 Id/Parent関係表現しているRDF調査
    • yeast.owl [Todo]

セマンティックゲノムアノテーションデータベースで表現したいSOデータタイプの確認 -11/21,22

  • replicon (SO:0001235)
    • chromosome (SO:0000340)
    • plasmid (SO:0000155)
  • gene (SO:0000704)
    • gene_member_region (SO:0000831)
      • transcript (SO:0000673) -- CDS (SO:0000316) -- polypeptide (SO:0000104)
    • ncRNA_gene (SO:0001263)
      • tRNA (SO:0000253)
      • rRNA (SO:0000252)
      • small_regulatory_ncRNA (SO:0000370)
        • tmRNA (SO:0000584)
    • protein_coding_gene (SO:0001217)
    • pseudogene (SO:0000336)
    • predicted_gene (SO:0000996)
    • fusion_gene (SO:0000287)
    • gene_with_polycistronic_transcript (SO:0000690)
    • gene_with_trans_spliced_transcript (SO:0000459)
  • mobile_genetic_element (SO:0001037)

参考

StanzaとGTPS (INSDC feature/qualifer) およびUniProtの要素との対応表 -11/22,23

Stanza対応表(書きかけ) [Todo]

Stanzaを構成するRDF設計 -11/21

  • 全員:元となるゲノム・遺伝子のデータには GTPS や RefSeq が候補としてあげられた
  • 全員:このうち GTPS をベースとすることが合意された
  • 重元:GTPS の RDF に対し、feature 毎に ID を付与、適切な SO を付与、SO を利用した exon 単位での遺伝子モデル表現を追加
  • 内山:GTPS と RefSeq の対応を location ベースで判定(3' の同一性を基準)、まずは syn についてサンプルデータを生成
  • 川島:GTPS からは Protein ID がとれる。UniProt の RDF には embl-cds に Protein ID があるので、UniProt の RDF があれば対応可能
 <rdf:Description rdf:about="http://purl.uniprot.org/uniprot/Q55168">
   <rdfs:seeAlso rdf:resource="http://purl.uniprot.org/embl-cds/BAA10307.1"/>
  • 渡辺:その他の UniProt から使えそうなデータについては BH11.11/セマンティックゲノムアノテーションデータベースの試作/UniProt にまとめる
  • 片山:文献については UniProt のエントリにあるものはそれを活用すればよいし、TogoWS の PMID → Turtle 生成で RDF 化できる(subject の pmid:7890027 が QName として不正なのを修正する)
  • 片山:Gene Ontology については、BH11.11/統合検索とRDFからの表データ生成#Gene_Ontology で geneontology.org の OWL, RDF のインポートを試みている(が現状では失敗)
  • 岡本:微生物単位での環境アノテーションを用意
  • 岡本:syn と ana について gene index による遺伝子 ID と文献 ID の対応を用意
  • 内山:GTPS に含まれるゲノム間でのオーソログ対応のデータを用意
  • 川島:OMIM については LinkDB に omim-kegg-hsa のデータがあるため、NCBI GeneID との対応は可能。OMIM の今後の更新は不明

これで少なくとも、微生物統合に必要なゲノムと遺伝子セットについて、UniProt + α の情報をもつ RDF ベースのデータベースを構築でき、環境などメタデータの付与や、遺伝子予測レベルごとのファセットブラウジング、統計的なデータの可視化、新規アノテーション付けとデータ公開までいけそう。

GTPS-Refseq対応表のRDF化 -11/22

TogoDB2 で変換して http://bh.dbcls.jp/ に投入した

 select ?gtps ?refseq where {
   ?s <http://togodb.dbcls.jp/refseq_gtps_syn/metadata/gtps_gene> ?gtps .
   ?s <http://togodb.dbcls.jp/refseq_gtps_syn/metadata/refseq_gene> ?refseq .
 }
gtps refseq
ST15 SLR0316
ST12 SLR0099
ST2 SLL0488
 :  :

GTPS の ID に生物種名を prefix しないと GTPS との RDF と対応が取れないということで

 select ?gtps ?refseq 
 from <http://refseq/>
 where {
    ?s <http://togodb.dbcls.jp/refseq_gtps_syn/metadata/gtps_gene> ?gtps .
    ?s <http://togodb.dbcls.jp/refseq_gtps_syn/metadata/refseq_gene> ?refseq .
  }
gtps refseq
Syne_PCC6803:ST1975 SLR0954
Syne_PCC6803:ST517 SLL0993
Syne_PCC6803:PL2919 SLL0508
 :  :

データベースのID表記の整理 (Syechocystis sp. PCC 6803, slr1311)-11/24,11/25

  • ゲノム/生物種
database label uri
GTPS Syne_PCC6803 http://gtps.ddbj.nig.ac.jp/single/index.php?chid=Syne_PCC6803
Refseq 57659 http://www.ncbi.nlm.nih.gov/bioproject/57659
MBGD syn http://mbgd.genome.ad.jp/htbin/MBGD_whole_html.pl?spec=syn
UniProt 1148 http://www.uniprot.org/taxonomy/1148
  • 遺伝子/タンパク質
database gene protein
label uri label uri
GTPS Syne_PCC6803:ST203 http://gtps.ddbj.nig.ac.jp/common/info.php?spid=Syne_PCC6803&ftid=13 BAA16586.1 http://gib.genes.nig.ac.jp/gtop/info.php?spid=Syne_PCC6803&prot=BAA16586.1
GTPS/RDF http://gtps.ddbj.nig.ac.jp/2010/BA000022/feature_14
Refseq 951890 http://www.ncbi.nlm.nih.gov/sites/entrez?db=gene&cmd=Retrieve&dopt=full_report&list_uids=951890 16329178 http://www.ncbi.nlm.nih.gov/protein/16329178
MBGD syn:SLR1311 http://mbgd.genome.ad.jp/htbin/MBGD_gene_info_frame.pl?name=syn:SLR1311
UniProt P16033 http://www.uniprot.org/uniprot/P16033
UniProt/RDF P16033 http://purl.uniprot.org/uniprot/P1603

Synechocystis sp. PCC 6803を用いたサンプルデータの作成および収集 -11/21,22,23,24,25

データ 担当者 RDF化 データストア
ID関係 GTPS-Refseq対応表 内山 済(togodb→turtle変換)
ゲノム/遺伝子 GTPS (syn) 重元
ゲノム/遺伝子 Refseq (syn) 片山
タンパク質 UniProt (syn.ana) UniProt
ID関係 Refseq ID-Pubmed対応表 (Gene Indexing、syn.ana) 岡本
文献 Pubmed (syn.ana) TogoWS
ID関係 MBGD ID-Refseq ID対応表 千葉 済(togodb→turtle変換)
オーソロググループ MBGD (syn) 西出
転写産物 ユーザのデータ(例、HessさんのSyn6803TSS.gbk 藤澤 済(togows/convert/genbank.ttl変換)

サンプルデータを用いた実装

Visualizationの設計

応用例

  • 微生物統合DB(GTPS)に対して BLAST 検索した結果を RDF に集積されたデータを活用して enrichment
  • ゲノムの領域を指定して領域に含まれるデータを返す API を用意し、BioDAS を超える。メタゲノムや RNA-Seq のマッピングデータを効率的にストリーミング。genoDiveで可視化
  • 1つ以上のゲノムを1エントリーとしたゲノム差分情報を表現したデータベース開発 -11/25追加

作業ログ

11/23

  • Sequence Ontology-GTPS Feature/qualifier対応作成と確認
  • GTPS RDF表現の変更とサンプルデータ作成
    • RDFを可視化する方法
rapper -o dot http://www.uniprot.org/uniprot/P16033.rdf?include=yes  >P16033y.dot
dot -Tgif P16033y.dot -o P16033y.gif

11/24

  • GTPS/RDF修正および議論
    • INSDのCDSとの比較情報(grade)とBLASTやInterProScan、アノテーションによるフラグ情報(flag)の要素をばらして表現 ←ファセッティングでの利用を想定
    • DDBJやGTPSのRDF表現で現在、ddbj名前空間をINSDCとする方向が望ましいが、現時点ではinsdc.orgにitemを指すURIが存在しないため変更なしとした
  • MBGD/RDF開発
    • MBGD-Refseq対応表
  • Syn6803TSS.gbk/RDF作成
  • togowsでgenbank形式ファイルをturtle形式ファイルに変換した
wget --post-file Syn6803TSS.gbk http://togows.dbcls.jp/convert/genbank.ttl
    • 名前空間ns0はinsdcが望ましいのでは?という議論
<?xml version="1.0" encoding="utf-8"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
 <rdf:Description rdf:nodeID="g641410638">
   <rdf:type rdf:resource="http://sabi.ddbj.nig.ac.jp/core/feature/TATA"/>
 </rdf:Description>
 <rdf:Description rdf:nodeID="g641410638">
   <ns0:locus_tag xmlns:ns0="http://sabi.ddbj.nig.ac.jp/core/qualifier/">slr1179</ns0:locus_tag>
 </rdf:Description>
 <rdf:Description rdf:nodeID="g638353598">
   <ns0:note xmlns:ns0="http://sabi.ddbj.nig.ac.jp/core/qualifier/">hypothetical protein </ns0:note>
 </rdf:Description>
 <rdf:Description rdf:nodeID="g638353598">
   <ns0:product xmlns:ns0="http://sabi.ddbj.nig.ac.jp/core/qualifier/">hypothetical protein</ns0:product>  </rdf:Description>
 <rdf:Description rdf:nodeID="g638353598">
   <ns0:db_xref xmlns:ns0="http://sabi.ddbj.nig.ac.jp/core/qualifier/">GeneID:953832</ns0:db_xref>
 </rdf:Description>
 <rdf:Description rdf:nodeID="g638353598">
   <rdf:type rdf:resource="http://sabi.ddbj.nig.ac.jp/core/feature/CDS"/>
 </rdf:Description>
 <rdf:Description rdf:nodeID="g638353598">
   <ns0:locus_tag xmlns:ns0="http://sabi.ddbj.nig.ac.jp/core/qualifier/">slr1394</ns0:locus_tag>
 </rdf:Description>
 <rdf:Description rdf:nodeID="g638353598">
   <ns0:translation xmlns:ns0="http://sabi.ddbj.nig.ac.jp/core/qualifier/">MQDFGAVFHNQVLLISLAACFLAQGIKAIVEIFRNGKINLRSLVSTGGMPSAHSALVGALATGVGLQKGWGSNEFAIACLFAVIVMYDAAGVRQAAGKQARILNQLIDELFQEDQSLTEERLKELLGHTPVQVFAGLALGIAIAFFAVPAQ</ns0:translation>
 </rdf:Description>
  • IDの対応関係を整理した

TogoMicrobe ID.png

11/25

  • Syn6803TSS.ttl作成
  • MBGD ID-Refseq ID対応表
    • MBGD/RDFのMBGD geneIDがURI表記のため対応表をURIに変更した
perl -ne 's/\t/,/;s/^/http:\/\/mbgd.genome.ad.jp\/rdf\/gene\//;print $_;' mbgdGeneId_refseqGeneId.syn.3625 > mbgdGeneId_refseqGeneId.syn.3625.csv
mbgd_gene refseq_protein
http://mbgd.genome.ad.jp/rdf/gene/syn:SLL7001 NP_942289.1
http://mbgd.genome.ad.jp/rdf/gene/syn:SSL5001 NP_942157.1
http://mbgd.genome.ad.jp/rdf/gene/syn:SLR6001 NP_942444.1
.. ..
    • togows/convert/csv.ttlを使ってみたらURLが変換されて新たなURLが生成された
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .

<http://togodb.dbcls.jp/212974066c90b484cd52b4ec49679ab8/show/1>
    <http://togodb.dbcls.jp/212974066c90b484cd52b4ec49679ab8/metadata/NP_942289.1> "NP_942157.1" ;
    <http://togodb.dbcls.jp/212974066c90b484cd52b4ec49679ab8/metadata/http___mbgd.genome.ad.jp_rdf_gene_syn_SLL7001> "http://mbgd.genome.ad.jp/rdf/gene/syn:SSL5001" .

<http://togodb.dbcls.jp/212974066c90b484cd52b4ec49679ab8/show/10>
    <http://togodb.dbcls.jp/212974066c90b484cd52b4ec49679ab8/metadata/NP_942289.1> "NP_942292.1" ;
    <http://togodb.dbcls.jp/212974066c90b484cd52b4ec49679ab8/metadata/http___mbgd.genome.ad.jp_rdf_gene_syn_SLL7001> "http://mbgd.genome.ad.jp/rdf/gene/syn:SSL7004" .
    • togodb2に入れてみた
      • togodbでtutleの取得方法を片山さんに聞く
        • コンフィグメニューのreleaseをクリックするとturtleが作成された
    • 対応表のRefseq IDはRefseq proteinのAccessionのため千葉さんに確認
      • mbgdにおいてrefseqのgene idおよびprotein idを確認して対応表を作り直した
mbgd_gene refseq_gene refseq_protein
http://mbgd.genome.ad.jp/rdf/gene/syn:SLL7001 SLL7001 NP_942289.1
http://mbgd.genome.ad.jp/rdf/gene/syn:SSL5001 SSL5001 NP_942157.1
http://mbgd.genome.ad.jp/rdf/gene/syn:SLR6001 SLR6001 NP_942444.1
.. .. ..
  • togodb2を利用してturtleファイルの作成した
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .

<http://togodb.dbcls.jp/mbgd_refseq_syn/show/1>
    <http://togodb.dbcls.jp/mbgd_refseq_syn/metadata/mbgd> <http://mbgd.genome.ad.jp/rdf/gene/syn:SLL7001> ;
    <http://togodb.dbcls.jp/mbgd_refseq_syn/metadata/refseq_gene> "SLL7001" ;
    <http://togodb.dbcls.jp/mbgd_refseq_syn/metadata/refseq_protein> "NP_942289.1" .

<http://togodb.dbcls.jp/mbgd_refseq_syn/show/10>
    <http://togodb.dbcls.jp/mbgd_refseq_syn/metadata/mbgd> <http://mbgd.genome.ad.jp/rdf/gene/syn:SLR0613> ;
    <http://togodb.dbcls.jp/mbgd_refseq_syn/metadata/refseq_gene> "SLR0613" ;
    <http://togodb.dbcls.jp/mbgd_refseq_syn/metadata/refseq_protein> "NP_439901.1" .

<http://togodb.dbcls.jp/mbgd_refseq_syn/show/100>
    <http://togodb.dbcls.jp/mbgd_refseq_syn/metadata/mbgd> <http://mbgd.genome.ad.jp/rdf/gene/syn:SLR5016> ;
    <http://togodb.dbcls.jp/mbgd_refseq_syn/metadata/refseq_gene> "SLR5016" ;
    <http://togodb.dbcls.jp/mbgd_refseq_syn/metadata/refseq_protein> "NP_942172.1" .


BH11.11での成果

  1. 統合DB微生物のデータ連携・統合に向けたRDF開発と改善の実施
    1. DDBJ/RDF形式をベースにGTPS/RDFの開発およびデータ統合および利用を想定し7項目についてRDFの表現の見直しおよび変更を実施した
      • 変更については、DDBJ/RDFにも反影する予定
    2. オーソログデータベースMBGDのRDF開発および3項目についての表現の変更を実施
  2. セマンティクゲノムアノテーションデータベース試作のためのSynechocystis sp. PCC 6803のRDFデータの作成および収集が完了した

課題

  • データ統合する上で適切な名前空間、ID表現方法、rdf:typeに関するガイドライン策定
  • stanza毎のSPARQL設計およびRDFのチューニング
  • GFF3 Id/Parent関係表現についてのRDF開発

メンバ

  • 片山
  • 岡本
  • 藤澤
  • 重元
  • 内山
  • 千葉
  • 西出