BH11.11/セマンティックゲノムアノテーションデータベースの試作

提供:TogoWiki

2011年11月22日 (火) 01:07時点におけるTfuji (トーク | 投稿記録)による版
移動: 案内, 検索

目次

目的

  • DBCLSでのゲノムデータベースの開発 -ktym, so
    • 環境などの様々なデータを取り込む上でRDFを利用する
    • アノテーション編集できるようにしたい
  • MicrobeConf (CyanoBase/RhizoBaseのデータソース)のturtle形式でtranscriptなど未対応なデータ表現の対応 -tf

作業手順

  1. ゲノムDB毎のゲノム情報レポートを構成する要素(Stanza)の調査および整理
    1. UniProtとCyanoBaseから抽出したstanza確認
    2. stanza洗い出しのために確認するDB調査
    3. Stanzaを構成する元情報のリストおよびRDF要素をKeynoteにまとめ
  2. Stanzaを構成するRDF設計
  3. Visualizationの設計

ゲノムDB毎のゲノム情報レポートを構成する要素(Stanza)の調査および整理

  • UniProtとCyanoBaseから抽出したstanza確認 - 事前調査済 -ktym, so
    Typical constitution of seq DBs
    1. General summary of organisms
    2. General summary
    3. Genomic context
    4. Transcript attributes
    5. Protein attributes
    6. Protein-protein interactions
    7. Visual annotation format
    8. Table annotation format
    9. Homologs (in NR)
    10. Homologs (in selected orgs)
    11. Gene annotation (GO etc.)
    12. References
    13. External links
    14. Mutants
    15. Revision history
    16. API
  • 表現したいデータタイプ
    1. transcript
    2. non-coding RNA
    3. mobile_element
  • (参考) CyanoBaseで扱っているINSDC FeaturesとSOの対応
FeaturesSO AccessionSO term
geneSO:0000704gene
CDSSO:0000316CDS
tRNASO:0000253tRNA
rRNASO:0000252rRNA
ncRNASO:0000655ncRNA
tmRNASO:0000584tmRNA
misc_featureSO:0000001region
misc_RNASO:0000673transcript
  • 調査対象のDB候補
    1. UniProt
    2. Refseq
    3. DDBJ, GTPS - 重元さん
    4. ensembl, UCSC -内藤さん siRNA、犬田 SRA
    5. WormBase -GFF3
    6. CyanoBase/RhizoBase

Stanzaを構成するRDF設計

Visualizationの設計

メンバ

  • ktym
  • so
  • tf

個人用ツール