BH11.11/セマンティックゲノムアノテーションデータベースの試作/DDBJ GTPS
提供:TogoWiki
目次 |
目的
微生物データ(メタデータとGTPS)統合に向けて、GTPSのRDFの完成度を高める。 DDBJ RDFにその開発内容を反映する。
RDFデータ例
DDBJ(大腸菌 MG1655株)、最後のアクセッション番号部分 U00096 を変えると別エントリも取得可能
GTPS(大腸菌 MG1655株)
GTPS(藍藻)
- http://gtps.ddbj.nig.ac.jp/rdf/BA000022.rdf.gz
- http://gtps.ddbj.nig.ac.jp/rdf/L13739.rdf.gz
- http://gtps.ddbj.nig.ac.jp/rdf/L25424.rdf.gz
- http://gtps.ddbj.nig.ac.jp/rdf/AP004310.rdf.gz
- http://gtps.ddbj.nig.ac.jp/rdf/AP004311.rdf.gz
- http://gtps.ddbj.nig.ac.jp/rdf/AP004312.rdf.gz
- http://gtps.ddbj.nig.ac.jp/rdf/AP006585.rdf.gz
DDBJ RDFの構造
開発内容
- ロケーション表記の細分化
開始、終了、方向をそれぞれでトリプル表現
feature_40633 location "complement(3033206..3034087)" . feature_40633 location_from "3034087" . feature_40633 location_to "3033206" . feature_40633 location_strand "-1" .
- joinロケーションを分けて表現
<ddbj_qualifier:location>complement(join(3033206..3034228,3034230..3034304))</ddbj_qualifier:location> <ddbj_qualifier:location_from>3034304</ddbj_qualifier:location_from> <ddbj_qualifier:location_to>3033206</ddbj_qualifier:location_to> <ddbj_qualifier:location_strand>-1</ddbj_qualifier:location_strand> <ddbj_item:regions> <rdf:Seq> <rdf:li> <rdf:Description> <ddbj_qualifier:region_from>3034304</ddbj_qualifier:region_from> <ddbj_qualifier:region_to>3034230</ddbj_qualifier:region_to> </rdf:Description> </rdf:li> <rdf:li> <rdf:Description> <ddbj_qualifier:region_from>3034228</ddbj_qualifier:region_from> <ddbj_qualifier:region_to>3033206</ddbj_qualifier:region_to> </rdf:Description> </rdf:li> </rdf:Seq> </ddbj_item:regions>
- 各フィーチャに匿名ノードではなく、シーケンシャルなIDを割り振る
フィーチャのURIは、http://gtps.ddbj.nig.ac.jp/<年度>/<Accession Number>/feature_<unique_ID> の形式
<ddbj_item:feature> <rdf:Description rdf:about="http://gtps.ddbj.nig.ac.jp/2010/U00096/feature_4063"> ... </ddbj_item:feature>
- GTPSの各フィーチャの rdf:type に Sequence Ontology, SO:xxxxxxx も割り振る
- INSDから引き継ぐもの
- source SO:2000061
- rRNA (ribosomal RNA) SO:0000252
- ncRNA (non-protein-coding RNA) SO:0001263
- misc_RNA SO:0000673
- tmRNA SO:0000584
- CDS (joinロケーションのORFなどGlimmerで予測できないORF) SO:0000316
- Glimmerにより予測されたORF
- CDS SO:0000316
- tRNA-scan SEにより予測されたtransfer RNA
- tRNA SO:0000253
- Rfamデータベースをマッピングして予測された RNA
- misc_RNA SO:0000673
- IS (Insertion sequence) 領域
- mobile_element (以前のrepeat_region) SO:0001037
- INSDから引き継ぐもの
- グレード (ORFの確からしさ)を /note ではなく専用 predicate で表現する
feature_6 grade "AAAA1" . feature_6 grade_analysis "AAAA" . feature_6 grade_insd "1" .
- フラグ (Glimmer, BLAST, InterProScanの結果) を /note ではなく専用 predicate で表現する
feature_6 flag "N-1-1-3-1-3-1" . feature_6 flag_pseudo_join "N" . feature_6 flag_glimmer_length "1" . feature_6 flag_glimmer_comparison "1" . feature_6 flag_rbs "3" . feature_6 flag_location_insd_cds "1" . feature_6 flag_location_blast "3" . feature_6 flag_location_interproscan "1" .
- InterPro, GO, protein_id のクロスリファレンスを URI で表現する
feature_6 db_xref_interpro http://www.ebi.ac.uk/interpro/ISearch?query=IPR004450 . feature_6 db_xref_go http://purl.obolibrary.org/obo/GO_0008152 . feature_6 db_xref_dad http://sabi.ddbj.nig.ac.jp/dad/AAC73115.1 .
議論
- IDについて (GTPSの各フィーチャには3つのIDがある)
- 今回シーケンシャルに割り振ったID (年度情報も持っている)
- 従来から付与していたID (年度情報は無い)
- 内部のID (URLで使用しているID)
- 名前空間について
sabi.ddbj.nig.ac.jp ではなく、insdc.org を使ったほうが良さそう。 しかし、predicate で使用するためのURI(コンテンツ)が insdc.org に なさそうなので、とりあえずそのままとする。