BH11.11/セマンティックゲノムアノテーションデータベースの試作

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(セマンティックゲノムアノテーションデータベースで表現したいデータタイプ)
(セマンティックゲノムアノテーションデータベースで表現したいデータタイプ)
52行: 52行:
*** '''transcript (SO:0000673)''' -- '''CDS (SO:0000316)''' --  '''polypeptide (SO:0000104)'''
*** '''transcript (SO:0000673)''' -- '''CDS (SO:0000316)''' --  '''polypeptide (SO:0000104)'''
** '''ncRNA_gene (SO:0001263)'''
** '''ncRNA_gene (SO:0001263)'''
-
*** tRNA (SO:0000253)
+
*** '''tRNA (SO:0000253)'''
-
*** rRNA (SO:0000252)
+
*** '''rRNA (SO:0000252)'''
*** small_regulatory_ncRNA (SO:0000370)
*** small_regulatory_ncRNA (SO:0000370)
-
**** tmRNA (SO:0000584)
+
**** '''tmRNA (SO:0000584)'''
** '''protein_coding_gene (SO:0001217)'''
** '''protein_coding_gene (SO:0001217)'''
** pseudogene (SO:0000336)
** pseudogene (SO:0000336)

2011年11月22日 (火) 12:36時点における版

目次

目的

  • DBCLSでのゲノムデータベースの開発 -ktym, so
    • 環境などの様々なデータを取り込む上でRDFを利用する
    • アノテーション編集できるようにしたい
  • MicrobeConf (CyanoBase/RhizoBaseのデータソース)のturtle形式でtranscriptなど未対応なデータ表現の対応 -tf

作業手順

  1. ゲノムDB毎のゲノム情報レポートを構成する要素(Stanza)の調査および整理
    1. UniProtとCyanoBaseから抽出したstanza確認 -11/21
    2. RDF表現のDB調査
    3. Stanzaを構成する元情報のリストおよびRDF要素をKeynoteにまとめ
  2. Stanzaを構成するRDF設計
  3. Visualizationの設計

作業項目

ゲノムDB毎のゲノム情報レポートを構成する要素(Stanza)の調査および整理

  • UniProtとCyanoBaseから抽出したstanza確認 - 事前調査済 -ktym, so
    Typical constitution of seq DBs
    1. General summary of organisms
    2. General summary
    3. Genomic context
    4. Transcript attributes
    5. Protein attributes
    6. Protein-protein interactions
    7. Visual annotation format
    8. Table annotation format
    9. Homologs (in NR)
    10. Homologs (in selected orgs)
    11. Gene annotation (GO etc.)
    12. References
    13. External links
    14. Mutants
    15. Revision history
    16. API

RDF表現のDB調査

  • その他の参考DB
    1. Refseq
    2. ensembl, UCSC -内藤さん siRNA、犬田 SRA
    3. WormBase -GFF3

セマンティックゲノムアノテーションデータベースで表現したいデータタイプ

  • replicon (SO:0001235)
    • chromosome (SO:0000340)
    • plasmid (SO:0000155)
  • gene (SO:0000704)
    • gene_member_region (SO:0000831)
      • transcript (SO:0000673) -- CDS (SO:0000316) -- polypeptide (SO:0000104)
    • ncRNA_gene (SO:0001263)
      • tRNA (SO:0000253)
      • rRNA (SO:0000252)
      • small_regulatory_ncRNA (SO:0000370)
        • tmRNA (SO:0000584)
    • protein_coding_gene (SO:0001217)
    • pseudogene (SO:0000336)
    • predicted_gene (SO:0000996)
    • fusion_gene (SO:0000287)
    • gene_with_polycistronic_transcript (SO:0000690)
    • gene_with_trans_spliced_transcript (SO:0000459)
  • mobile_genetic_element (SO:0001037)

参考

StanzaとGTPS (INSDC feature/qualifer) およびUniProtの要素との対応表

Todo

Stanzaを構成するRDF設計

  • 全員:元となるゲノム・遺伝子のデータには GTPS や RefSeq が候補としてあげられた
  • 全員:このうち GTPS をベースとすることが合意された
  • 重元:GTPS の RDF に対し、feature 毎に ID を付与、適切な SO を付与、SO を利用した exon 単位での遺伝子モデル表現を追加
  • 内山:GTPS と RefSeq の対応を location ベースで判定(3' の同一性を基準)、まずは syn についてサンプルデータを生成
  • 川島:GTPS からは Protein ID がとれる。UniProt の RDF には embl-cds に Protein ID があるので、UniProt の RDF があれば対応可能
 <rdf:Description rdf:about="http://purl.uniprot.org/uniprot/Q55168">
   <rdfs:seeAlso rdf:resource="http://purl.uniprot.org/embl-cds/BAA10307.1"/>
  • 渡辺:その他の UniProt から使えそうなデータについては BH11.11/セマンティックゲノムアノテーションデータベースの試作/UniProt にまとめる
  • 片山:文献については UniProt のエントリにあるものはそれを活用すればよいし、TogoWS の PMID → Turtle 生成で RDF 化できる(subject の pmid:7890027 が QName として不正なのを修正する)
  • 片山:Gene Ontology については、BH11.11/統合検索とRDFからの表データ生成#Gene_Ontology で geneontology.org の OWL, RDF のインポートを試みている(が現状では失敗)
  • 岡本:微生物単位での環境アノテーションを用意
  • 岡本:syn と ana について gene index による遺伝子 ID と文献 ID の対応を用意
  • 内山:GTPS に含まれるゲノム間でのオーソログ対応のデータを用意
  • 川島:OMIM については LinkDB に omim-kegg-hsa のデータがあるため、NCBI GeneID との対応は可能。OMIM の今後の更新は不明

これで少なくとも、微生物統合に必要なゲノムと遺伝子セットについて、UniProt + α の情報をもつ RDF ベースのデータベースを構築でき、環境などメタデータの付与や、遺伝子予測レベルごとのファセットブラウジング、統計的なデータの可視化、新規アノテーション付けとデータ公開までいけそう。

サンプルデータを用いた実装 -ktym

  • Synechocystis sp. PCC 6803でデータストア
    • GTPS-Refseq対応表 RDF化
    • GTPS RDF
    • UniProt RDF

Visualizationの設計

応用例

  • 微生物統合DB(GTPS)に対して BLAST 検索した結果を RDF に集積されたデータを活用して enrichment
  • ゲノムの領域を指定して領域に含まれるデータを返す API を用意し、BioDAS を超える。メタゲノムや RNA-Seq のマッピングデータを効率的にストリーミング。genoDiveで可視化

メンバ

  • 片山
  • 岡本
  • 藤澤
  • 重元
  • 内山



個人用ツール