BH12.12/SPARQLthon11/GenomeRefine

提供:TogoWiki

移動: 案内, 検索

GenomeRefineでのユーザ入力等のゲノムプロジェクト単位のメタデータファイルmetadata.ttlの設計、リソース整備

目次

metadata.ttl

http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/organism	<tconf入力値>
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/assembly_method	<tconf入力値>
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/assembly_name	<tconf入力値>
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/genome_ceverage	<tconf入力値>
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/sequence_technology	<tconf入力値> or Vocabulary
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/locus_tag_prefix	<tconf入力値> || <gr id>
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/keywords	.
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/sequence_version	<tconf:genome project revision>
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/topology	linear
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/molecule_type	DNA
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/division	BCT
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/date_created	<tconf:date_created>
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/date_modified	<tconf:date_modified>
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/entry_version	<tconf:revision>
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/mol_type	"Genomic DNA"
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/sequence_prefix	"sequence"
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/classification	<taxonomy idから生成>
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/strain	<taxonomy idから生成>
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/taxonomy_id	<migap csvから取得>
http://genome.microbedb.jp/<dataset>/<gr id>	http://insdc.org/owl/bioproject/isolation_source	<tconf入力値> or Vocabulary

メタデータ値

Assembly method

NCBI登録システム参照

Newbler
Celera Assembler
SOAPdenovo
Velvet
ALLPaths
GS De Novo Assembler
MIRA
phredPhrap
ABySS
CLC NGS Cell
Arachne
JAZZ
Other
  • 関連情報
* http://seqanswers.com/wiki/Assembly

Sequence Technology

NCBI登録システム参照

ABI3730
Sanger
454
Illumina
Illumina GAII
Illumina GAIIx
Illumina HiSeq
SOLiD
PacBio
IonTorrent
Helicos
Complete Genomics
Other
  • 関連情報
* DRAメタデータ Platform の Instrument Model http://trace.ddbj.nig.ac.jp/dra/metadata.html#experiment

lineage

taxonomy idからlineage情報を取得する

  • SPARQL
SELECT
 #group_concat(?tax_label; separator = ";") AS ?lineage
 ?tax_label, ?step
WHERE
{
SELECT
      ?search_tax str(?label) as ?label  ?step str(?tax_label) as ?tax_label ?tax ?rank
      WHERE
        {
          ?search_tax rdfs:label ?label FILTER (?search_tax = <http://purl.obolibrary.org/obo/NCBITaxon_1148> ) .
          ?search_tax rdfs:subClassOf ?tax OPTION (transitive, t_direction 1, t_min(0), t_step("step_no") as ?step).
          ?tax rdfs:label ?tax_label .
          OPTIONAL { ?tax rdfs:subClassOf ?parent . }
          OPTIONAL { ?tax <http://purl.obolibrary.org/obo/ncbitaxon#has_rank> ?rank . }
          FILTER(?tax != <http://purl.obolibrary.org/obo/NCBITaxon_1>)
          FILTER(?step > 0)
        }
      order by desc(?step)
}
# order by desc(?step)
#group by ?search_tax

意図したオーダーでgroup_concatされてくれない

isolation_source

isolation_sourceの値の候補として、meo_v06_130819.owlのhierRank=2のタームリストを取得する

  • virtuosoにインポート
SQL> DB.DBA.TTLP_MT(file_to_string_output('sw/ontologies/meo_v06_130819.ttl'),,'http://genome.microbedb.jp/meo/');

Done. -- 12204 msec.
SQL> checkpoint;

Done. -- 9900 msec.
SQL> exit
  • SPARQL
select
 ?class str(?label) as ?isolation_source str(?parent_label) as ?parent_class
where
{
 ?class <http://purl.jp/bio/11/meo/MEO_0000442> ?rank.
 ?class rdfs:subClassOf ?parent_class.
 ?parent_class rdfs:label ?parent_label.
 ?class rdfs:label ?label.
 FILTER(?rank = "2")
}
limit 100
class	isolation_source	parent_class
http://purl.jp/bio/11/meo/MEO_0000405	aerobic environment	atmosphere
http://purl.jp/bio/11/meo/MEO_0000404	anaerobic environment	atmosphere
http://purl.jp/bio/11/meo/MEO_0000632	aerosol	atmosphere
http://purl.jp/bio/11/meo/MEO_0000406	geographic feature and biome	geosphere
http://purl.jp/bio/11/meo/MEO_0000066	sediment	geosphere
http://purl.jp/bio/11/meo/MEO_0000407	rock, sand and soil	geosphere
http://purl.jp/bio/11/meo/MEO_0000411	waste treatment	human activity association
http://purl.jp/bio/11/meo/MEO_0000423	small artifact	human activity association
http://purl.jp/bio/11/meo/MEO_0000409	large-scale artifact	human activity association
http://purl.jp/bio/11/meo/MEO_0000424	liquid artifact	human activity association
http://purl.jp/bio/11/meo/MEO_0000427	food	human activity association
http://purl.jp/bio/11/meo/MEO_0000410	artificial natural environment	human activity association
http://purl.jp/bio/11/meo/MEO_0000635	fuel	human activity association
http://purl.jp/bio/11/meo/MEO_0000414	ice	hydrosphere
http://purl.jp/bio/11/meo/MEO_0000425	aquatic feature and biome	hydrosphere
http://purl.jp/bio/11/meo/MEO_0000036	water	hydrosphere
http://purl.jp/bio/11/meo/MEO_0000419	plant associated	organism association
http://purl.jp/bio/11/meo/MEO_0000421	animal associated	organism association
http://purl.jp/bio/11/meo/MEO_0000417	organic feature and biome	organism association
http://purl.jp/bio/11/meo/MEO_0000116	biofilm	organism association
http://purl.jp/bio/11/meo/MEO_0000420	symbiotic microbe	organism association
http://purl.jp/bio/11/meo/MEO_0000422	excrement and secretion	organism association
http://purl.jp/bio/11/meo/MEO_0000418	fungi associated	organism association


課題

  • metadata.ttl と genome.ttl の関係を紐づけるトリプル
    • metadata.ttlへ配列長とラベルをトリプルを追加
    • migapからgenbankに変換する際にmetadata.ttl生成、genome.ttlのuuidは不明のため
  • metadate.ttl のpredicateのFixする