BH16.12/DFAST
提供:TogoWiki
(版間での差分)
(→参照データベース作成・更新作業の自動化) |
(→参照データベース作成・更新作業の自動化) |
||
15行: | 15行: | ||
**RefSeqからrefseq_category="reference genome"であるエントリを取得 | **RefSeqからrefseq_category="reference genome"であるエントリを取得 | ||
**TogoGenome開発版エンドポイント利用 http://dev.togogenome.org/sparql-test | **TogoGenome開発版エンドポイント利用 http://dev.togogenome.org/sparql-test | ||
- | + | Phylumごとに"reference genome"の件数を取得 | |
<pre> | <pre> | ||
DEFINE sql:select-option "order" | DEFINE sql:select-option "order" | ||
48行: | 48行: | ||
GROUP BY ?phylum ORDER BY ?phylum | GROUP BY ?phylum ORDER BY ?phylum | ||
</pre> | </pre> | ||
- | " | + | "reference genome"のAssembly ID取得 |
<pre> | <pre> | ||
DEFINE sql:select-option "order" | DEFINE sql:select-option "order" |
2016年12月15日 (木) 14:54時点における最新版
目次 |
概要
バクテリア アノテーション・DDBJ登録支援パイプラインDFASTの開発
DFAST: https://dfast.nig.ac.jp
谷沢・藤澤・山本・真島・李
TogoAnnotatorとの連携
- DFASTのアノテーション結果編集画面から、TogoAnnotatorへの問い合わせを実装
- TogoAnnotatorの推測結果から、最適な遺伝子名をユーザーが選択可能に。
参照データベース作成・更新作業の自動化
- Taxonomy RDF, Assembly RDFを利用してアノテーションリソース取得
- RefSeqからrefseq_category="reference genome"であるエントリを取得
- TogoGenome開発版エンドポイント利用 http://dev.togogenome.org/sparql-test
Phylumごとに"reference genome"の件数を取得
DEFINE sql:select-option "order" PREFIX asm: <http://www.ncbi.nlm.nih.gov/assembly/> PREFIX tax: <http://identifiers.org/taxonomy/> PREFIX ddbjtax: <http://ddbj.nig.ac.jp/ontologies/taxonomy/> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> SELECT ?phylum (count(?asmid) as ?count) FROM <http://togogenome.org/graph/taxonomy> FROM <http://togogenome.org/graph/assembly_report> WHERE { VALUES ?taxon_root {tax:2} # 2 bacteria, 10239 virus, 2157 archaea VALUES ?rank {ddbjtax:Phylum} VALUES ?version_status {"latest"}. VALUES ?category {"reference genome"}. ?taxon_root a ddbjtax:Taxon . ?taxon rdfs:subClassOf* ?taxon_root . ?taxon ddbjtax:rank ?rank . ?taxon2 rdfs:subClassOf* ?taxon . ?assembly asm:taxon ?taxon2 . ?assembly asm:refseq_category ?category . ?assembly asm:assembly_id ?asmid . ?taxon rdfs:label ?phylum . FILTER (STRSTARTS(?asmid, "GCF")). } GROUP BY ?phylum ORDER BY ?phylum
"reference genome"のAssembly ID取得
DEFINE sql:select-option "order" PREFIX asm: <http://www.ncbi.nlm.nih.gov/assembly/> PREFIX tax: <http://identifiers.org/taxonomy/> PREFIX ddbjtax: <http://ddbj.nig.ac.jp/ontologies/taxonomy/> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> SELECT (REPLACE(STR(?taxon), "http://identifiers.org/taxonomy/", "") as ?phylum_id) (REPLACE(STR(?taxon2), "http://identifiers.org/taxonomy/", "") as ?taxonomy_id) ?phylum ?scientificname ?asmid ?version_status ?category FROM <http://togogenome.org/graph/taxonomy> FROM <http://togogenome.org/graph/assembly_report> WHERE { VALUES ?taxon_root {tax:2} # 2 bacteria, 10239 virus, 2157 archaea VALUES ?rank { ddbjtax:Phylum } VALUES ?version_status {"latest"}. VALUES ?category {"reference genome"}. ?taxon_root a ddbjtax:Taxon . ?taxon rdfs:subClassOf* ?taxon_root. ?taxon ddbjtax:rank ?rank. ?taxon2 rdfs:subClassOf* ?taxon. ?assembly asm:taxon ?taxon2 . ?assembly asm:refseq_category ?category . ?assembly asm:assembly_id ?asmid . ?taxon rdfs:label ?phylum . ?taxon2 ddbjtax:scientificName ?scientificname FILTER (STRSTARTS(?asmid, "GCF")). } ORDER BY ?phylum
- UniprotへSparqlを利用して検索を行いデータ取得
Assembly ID を指定し、そこに含まれるタンパクのアノテーション情報をUniProtから取得
PREFIX foaf: <http://xmlns.com/foaf/0.1/> PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX skos: <http://www.w3.org/2004/02/skos/core#> PREFIX up: <http://purl.uniprot.org/core/> PREFIX embl: <http://purl.uniprot.org/embl/> PREFIX xsd: <http://www.w3.org/2001/XMLSchema#> SELECT (REPLACE(STR(?id),"http://purl.uniprot.org/uniprot/", "") as ?UPID) (GROUP_CONCAT(STR(?review); separator = "~~~") as ?reviewed) (GROUP_CONCAT(?recname; separator ="~~~") as ?recname) (GROUP_CONCAT(?subname; separator ="~~~") as ?subname) (GROUP_CONCAT(?gene; separator ="~~~") as ?gene) (GROUP_CONCAT(?fragment; separator ="~~~") as ?fragment) (GROUP_CONCAT(STR(?precursor); separator ="~~~") as ?precursor) (GROUP_CONCAT(replace(STR(?dbref), "http://purl.uniprot.org/", ""); separator =", ") as ?protid) (GROUP_CONCAT(?lt; separator =", ") as ?locustag) (GROUP_CONCAT(?ecnum; separator =", ") as ?ec) (sample(?seq) as ?sequence) WHERE { VALUES ?assemblyID { embl:GCA_000011365.1 } ?proteome rdfs:seeAlso ?assemblyID . ?proteome skos:narrower ?subproteome . ?id up:proteome ?subproteome . ?id a up:Protein . { ?id up:reviewed ?review . ?id up:sequence / rdf:value ?seq . OPTIONAL {?id up:encodedBy / skos:prefLabel ?gene .} OPTIONAL {?id up:recommendedName / up:fullName ?recname .} OPTIONAL {?id up:submittedName / up:fullName ?subname .} OPTIONAL {?id up:sequence / up:fragment ?fragment .} OPTIONAL {?id up:sequence / up:precursor ?precursor .} } UNION { { VALUES ?dbtype { <http://purl.uniprot.org/database/RefSeq> <http://purl.uniprot.org/database/EMBL> } ?id rdfs:seeAlso ?dbref . ?dbref up:database ?dbtype . } UNION { ?id up:encodedBy / up:locusName ?lt . } UNION { ?id up:domain ?domain . ?domain up:recommendedName / up:ecName ?ecnum . } UNION { ?id up:recommendedName / up:ecName ?ecnum . } } } GROUP BY ?id"""
- 参照データベースを作成しβ版としてリリース
DDBJ登録フォーマット
- MSS登録フォーマットのヘッダー部分の表記方法
- DATATYPE、KEYWORDの表記
- [TODO] STANDARD_DRAFT/HI_QUALITY_DRAFTの選択 http://www.ddbj.nig.ac.jp/sub/keyword-e.htmll
- inferenceの記述形式を確認