BH16.12/GGGenome CyanoBase

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(ページの作成:「== GGGenomeにデータを格納するために必要な情報 == * [https://gggenome.dbcls.jp/ja/help.html GGGenomeヘルプページの検索可能なデータベース...」)
(参考情報を追加)
 
1行: 1行:
== GGGenomeにデータを格納するために必要な情報 ==
== GGGenomeにデータを格納するために必要な情報 ==
-
* [https://gggenome.dbcls.jp/ja/help.html GGGenomeヘルプページの検索可能なデータベース一覧(ゲノム)]に表示されているメタデータ
+
* GGGenomeヘルプページの[http://GGGenome.dbcls.jp/ja/help.html#db_list 検索可能なデータベース一覧]に表示されているメタデータ
** Database: hg38
** Database: hg38
** Source: UCSC
** Source: UCSC
8行: 8行:
** Latin name: Homo sapiens
** Latin name: Homo sapiens
** Assembly information: GRCh38/hg38 (Dec, 2013)
** Assembly information: GRCh38/hg38 (Dec, 2013)
 +
** 配列入手先のリンク: http://genome.ucsc.edu/cgi-bin/hgGateway?db=hg38
* ゲノム配列(FASTA形式)
* ゲノム配列(FASTA形式)
 +
 +
上記の情報があれば、 http://GGGenome.dbcls.jp/hg38/TTCATTGACAACATT [.bed|.json|.txt] のように検索できるようになる。
== CyanoBaseの情報提供 ==
== CyanoBaseの情報提供 ==
* メタデータ: [http://genome.microbedb.jp/cyanobase CyanoBase]の376ゲノムリストはTogoStanzaを利用して提供されており、 [http://genome.microbedb.jp//stanza/genome_projects/resources/projects?taxonomy_id=1117 JSON API] から取得してもらう
* メタデータ: [http://genome.microbedb.jp/cyanobase CyanoBase]の376ゲノムリストはTogoStanzaを利用して提供されており、 [http://genome.microbedb.jp//stanza/genome_projects/resources/projects?taxonomy_id=1117 JSON API] から取得してもらう
-
* ゲノム配列: 遺伝研内のサーバ通しなのでrsyncで提供【Done】
+
* ゲノム配列: 遺伝研内のサーバ通しなのでrsyncで提供。非圧縮FASTAで1.4GB【Done】
== GGGenomeでの対応 ==
== GGGenomeでの対応 ==
* CyanoBaseが持っている GCA_000332055.1 などAssembly AccessionをIDとする
* CyanoBaseが持っている GCA_000332055.1 などAssembly AccessionをIDとする
-
* データの更新があった場合、revisionが上がるのでadd & deleteで対応できそう
+
* データの更新があった場合、revision (".1" の部分) が上がるのでadd & deleteで対応できそう
== Todo ==
== Todo ==
24行: 27行:
** TogoStanzaを介して、SPARQLで取得CyanoBaseの表やJSONに追加できるとよさそう
** TogoStanzaを介して、SPARQLで取得CyanoBaseの表やJSONに追加できるとよさそう
* GGGenomeヒット結果からのリンク生成
* GGGenomeヒット結果からのリンク生成
-
** 現状でも、JBrowseへのリンク生成はできる
+
** 現状でも、JBrowseへのリンク生成はできる [http://GGGenome.dbcls.jp/rice/TTCATTGACAACATT イネゲノムの例]
** assembly_id, sequence_id, start, end からCyanoBaseの遺伝子リストを表示するスタンザ開発?
** assembly_id, sequence_id, start, end からCyanoBaseの遺伝子リストを表示するスタンザ開発?

2016年12月15日 (木) 09:13時点における最新版

目次

GGGenomeにデータを格納するために必要な情報

上記の情報があれば、 http://GGGenome.dbcls.jp/hg38/TTCATTGACAACATT [.bed|.json|.txt] のように検索できるようになる。

CyanoBaseの情報提供

  • メタデータ: CyanoBaseの376ゲノムリストはTogoStanzaを利用して提供されており、 JSON API から取得してもらう
  • ゲノム配列: 遺伝研内のサーバ通しなのでrsyncで提供。非圧縮FASTAで1.4GB【Done】

GGGenomeでの対応

  • CyanoBaseが持っている GCA_000332055.1 などAssembly AccessionをIDとする
  • データの更新があった場合、revision (".1" の部分) が上がるのでadd & deleteで対応できそう

Todo

  • CyanoBaseがもっていない和名・慣用名的なメタデータの取得
    • DBpedia、WikiDataあたりを調査 → http://tinyurl.com/gvfj4zw
    • integbio/DBcatalog RDFの情報も使えるかも?
    • TogoStanzaを介して、SPARQLで取得CyanoBaseの表やJSONに追加できるとよさそう
  • GGGenomeヒット結果からのリンク生成
    • 現状でも、JBrowseへのリンク生成はできる イネゲノムの例
    • assembly_id, sequence_id, start, end からCyanoBaseの遺伝子リストを表示するスタンザ開発?