BH11.11/セマンティックゲノムアノテーションデータベースの試作/DDBJ GTPS

提供:TogoWiki

2011年11月24日 (木) 08:38時点におけるYshigemo (トーク | 投稿記録)による版
移動: 案内, 検索

目次

目的

微生物データ(メタデータとGTPS)統合に向けて、GTPSのRDFの完成度を高める。 DDBJ RDFにその開発内容を反映する。

RDFデータ例

DDBJ(大腸菌 MG1655株)、最後のアクセッション番号部分 U00096 を変えると別エントリも取得可能

GTPS(大腸菌 MG1655株)

GTPS(藍藻)

DDBJ RDFの構造

Structure of DDBJ RDF.jpg

開発内容

  • ロケーション表記の細分化

開始、終了、方向をそれぞれでトリプル表現

feature_40633  location  "complement(3033206..3034087)" .
feature_40633  location_from  "3034087" .
feature_40633  location_to  "3033206" .
feature_40633  location_strand  "-1" .
  • joinロケーションを分けて表現
<ddbj_qualifier:location>complement(join(3033206..3034228,3034230..3034304))</ddbj_qualifier:location>
<ddbj_qualifier:location_from>3034304</ddbj_qualifier:location_from>
<ddbj_qualifier:location_to>3033206</ddbj_qualifier:location_to>
<ddbj_qualifier:location_strand>-1</ddbj_qualifier:location_strand>
<ddbj_item:regions>
 <rdf:Seq>
  <rdf:li>
   <rdf:Description>
    <ddbj_qualifier:region_from>3034304</ddbj_qualifier:region_from>
    <ddbj_qualifier:region_to>3034230</ddbj_qualifier:region_to>
   </rdf:Description>
  </rdf:li>
  <rdf:li>
   <rdf:Description>
    <ddbj_qualifier:region_from>3034228</ddbj_qualifier:region_from>
    <ddbj_qualifier:region_to>3033206</ddbj_qualifier:region_to>
   </rdf:Description>
  </rdf:li>
 </rdf:Seq>
</ddbj_item:regions>
  • 各フィーチャに匿名ノードではなく、シーケンシャルなIDを割り振る

フィーチャのURIは、http://gtps.ddbj.nig.ac.jp/<年度>/<Accession Number>/feature_<unique_ID> の形式

<ddbj_item:feature>
 <rdf:Description rdf:about="http://gtps.ddbj.nig.ac.jp/2010/U00096/feature_4063">
 ...
</ddbj_item:feature>
  • GTPSの各フィーチャの rdf:type に Sequence Ontology, SO:xxxxxxx も割り振る
    • INSDから引き継ぐもの
      • source SO:2000061
      • rRNA (ribosomal RNA) SO:0000252
      • ncRNA (non-protein-coding RNA) SO:0001263
      • misc_RNA SO:0000673
      • tmRNA SO:0000584
      • CDS (joinロケーションのORFなどGlimmerで予測できないORF) SO:0000316
    • Glimmerにより予測されたORF
      • CDS SO:0000316
    • tRNA-scan SEにより予測されたtransfer RNA
      • tRNA SO:0000253
    • Rfamデータベースをマッピングして予測された RNA
      • misc_RNA SO:0000673
    • IS (Insertion sequence) 領域
      • mobile_element (以前のrepeat_region) SO:0001037
  • グレード (ORFの確からしさ)を /note ではなく専用 predicate で表現する
feature_6  grade  "AAAA1" .
feature_6  grade_analysis  "AAAA" .
feature_6  grade_insd  "1" .
  • フラグ (Glimmer, BLAST, InterProScanの結果) を /note ではなく専用 predicate で表現する
feature_6  flag  "N-1-1-3-1-3-1" .
feature_6  flag_pseudo_join  "N" .
feature_6  flag_glimmer_length  "1" .
feature_6  flag_glimmer_comparison  "1" .
feature_6  flag_rbs  "3" .
feature_6  flag_location_insd_cds  "1" .
feature_6  flag_location_blast  "3" .
feature_6  flag_location_interproscan  "1" .
  • InterPro, GO, protein_id のクロスリファレンスを URI で表現する
feature_6  db_xref_interpro  http://www.ebi.ac.uk/interpro/ISearch?query=IPR004450 .
feature_6  db_xref_go  http://purl.obolibrary.org/obo/GO_0008152 .
feature_6  db_xref_dad  http://sabi.ddbj.nig.ac.jp/dad/AAC73115.1 .

議論

  • IDについて (GTPSの各フィーチャには3つのIDがある)
    • 今回シーケンシャルに割り振ったID (年度情報も持っている)
    • 従来から付与していたID (年度情報は無い)
    • 内部のID (URLで使用しているID)
  • 名前空間について

sabi.ddbj.nig.ac.jp ではなく、insdc.org を使ったほうが良さそう。 しかし、predicate で使用するためのURI(コンテンツ)が insdc.org に なさそうなので、とりあえずそのままとする。