SPARQLthon26/TogoGenome

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(6.GenBANK形式(?)をRDFに変換する)
114行: 114行:
===6.GenBANK形式をRDFに変換する===
===6.GenBANK形式をRDFに変換する===
[http://ep.dbcls.jp/rdf/togogenome/bin/insdc2ttl/insdc2ttl.rb スクリプト(更新中)]
[http://ep.dbcls.jp/rdf/togogenome/bin/insdc2ttl/insdc2ttl.rb スクリプト(更新中)]
 +
 +
== 関連情報 ==
 +
* MicrobeDB.jp
 +
* [[SPARQLthon26/CyanoBase|CyanoBase]]

2014年11月17日 (月) 05:29時点における版

目次

ゲノム RDF 真核対応

RDF取得フロー

1.NCBIからASSEMBLYのレポートを取得する

「GENOME_REPORTS/eukaryotes.txt」ではBioProjectIDが対応していないため、「ASSEMBLY_REPORTS/assembly_summary_refseq.txt」を使用する。
既存の「prokaryotes.txt」は使用せずに、「assembly_summary_refseq.txt」から原核真核含め全生物種を取得する。

ダウンロード済みファイル

2.ASSEMBLY_REPORTの情報をRDFに変換してインポートする


変換済みRDF

3.ロード対象のTaxID及びBioProjectIDを選択する

「assembly_summary_refseq.txt」には過去の履歴やクオリティの低いデータも含まれているため、ロード対象のTaxID及びその代表的GenomeのBioProjectIDを一つ選定する。
選定の基準は次の通り(上から優先)

  • 選定基準1. assembly_levelに"Chromosome"が含まれているもの
PREFIX asm: <http://www.ncbi.nlm.nih.gov/assembly/>
SELECT ?level (COUNT(?assembly) AS ?count)
{
 ?assembly asm:assembly_level ?level .
} GROUP BY ?level ORDER BY DESC (?count)

結果:

"Contig" : 9355
"Scaffold" : 5468
"Gapless Chromosome" : 2739
"Chromosome"	: 513
"Chromosome with gaps" : 187
  • 選定基準2. version_statusで最新のものを取得する
asm:version_status "latest"

ロード対象となるTaxIDは3178件。

PREFIX asm: <http://www.ncbi.nlm.nih.gov/assembly/>
SELECT (COUNT(DISTINCT ?tax_id) AS ?tax_id)
{
 ?assembly asm:tax_id ?tax_id;
  asm:version_status "latest" ;
  asm:assembly_level ?level  . 
 FILTER(CONTAINS(?level, "Chromosome"))
} 

このうち51件のTaxIDについてはProjectIDが一意に決まらない。以下はそのリストを出力するクエリ 結果リスト

PREFIX asm: <http://www.ncbi.nlm.nih.gov/assembly/>
SELECT ?tax_id ?bioproject_accession ?category ?release_date
FROM <http://togogenome.org/graph/assembly_report>
{
 {
  SELECT ?tax_id
  {
   ?assembly asm:tax_id ?tax_id;
    asm:bioproject_accession ?bioproject_accession ;
    asm:version_status "latest" ;
    asm:assembly_level ?level  . 
   FILTER(CONTAINS(?level, "Chromosome"))
  } GROUP BY ?tax_id HAVING (COUNT(DISTINCT ?bioproject_accession) > 1) 
 }
 ?assembly asm:tax_id ?tax_id;
  asm:bioproject_accession ?bioproject_accession ;
  asm:version_status "latest" ;
  asm:assembly_level ?level  ;
  asm:refseq_category ?category;
  asm:release_date ?release_date .
} ORDER BY ?tax_id 
  • 選定基準3. refseqのcategoryで優先順位を決定する

latestで複数のProjectIDがある場合には(複数の機関のProjectIDがあるケース等)、categoryの一番高いものを優先する。
categoryのリストは以下の通り。

PREFIX asm: <http://www.ncbi.nlm.nih.gov/assembly/>
SELECT ?category (COUNT(?assembly) AS ?count)
FROM <http://togogenome.org/graph/assembly_report>
{
 ?assembly asm:refseq_category ?category .
} GROUP BY ?category ORDER BY DESC (?count)
"na"	14738
"representative-genome"	3433
"reference-genome"	91

論文によるとcategoryによるクオリティの優先度は次のようになる
"reference-genome"> "representative-genome" > "na"

  • 選定基準4. release_dateで優先順位を決定する

categoryでもProjectIDが一意に決まらない場合には、release_dateが新しいものを選択する。

  • 選定基準5. それでも決まらない場合

TogoGenomeのロード対象外とする
このケースは現在一例のみで、Isolateだけが違うProjectIDが3件登録されている。 http://www.ncbi.nlm.nih.gov/assembly/?term=txid1074919

4.ASSEMBLY_REPORTSにないシーケンスデータの一覧を取得する

真核生物のうち、人のミトコンドリア等のAssemblyがほぼ発生しないものについては、Assemblyのレポートには記載されていないため、漏れる事がある
それらのBioProjectを取得するには個別対応となる。漏れている可能性があるものは「GENOME_REPORTS/eukaryotes.txt」のOrganellaの欄に数値があるものでリストアップして個別対応する。

5.TogoWSでGenBANK形式を取得する

対象としたTaxIDとBioProjectIDを元にTogoWSからGenBANK形式のデータを取得する スクリプト(作成中)

6.GenBANK形式をRDFに変換する

スクリプト(更新中)

関連情報

個人用ツール