BH16.12/GGGenome CyanoBase
提供:TogoWiki
(版間での差分)
(ページの作成:「== GGGenomeにデータを格納するために必要な情報 == * [https://gggenome.dbcls.jp/ja/help.html GGGenomeヘルプページの検索可能なデータベース...」) |
(参考情報を追加) |
||
1行: | 1行: | ||
== GGGenomeにデータを格納するために必要な情報 == | == GGGenomeにデータを格納するために必要な情報 == | ||
- | * [ | + | * GGGenomeヘルプページの[http://GGGenome.dbcls.jp/ja/help.html#db_list 検索可能なデータベース一覧]に表示されているメタデータ |
** Database: hg38 | ** Database: hg38 | ||
** Source: UCSC | ** Source: UCSC | ||
8行: | 8行: | ||
** Latin name: Homo sapiens | ** Latin name: Homo sapiens | ||
** Assembly information: GRCh38/hg38 (Dec, 2013) | ** Assembly information: GRCh38/hg38 (Dec, 2013) | ||
+ | ** 配列入手先のリンク: http://genome.ucsc.edu/cgi-bin/hgGateway?db=hg38 | ||
* ゲノム配列(FASTA形式) | * ゲノム配列(FASTA形式) | ||
+ | |||
+ | 上記の情報があれば、 http://GGGenome.dbcls.jp/hg38/TTCATTGACAACATT [.bed|.json|.txt] のように検索できるようになる。 | ||
== CyanoBaseの情報提供 == | == CyanoBaseの情報提供 == | ||
* メタデータ: [http://genome.microbedb.jp/cyanobase CyanoBase]の376ゲノムリストはTogoStanzaを利用して提供されており、 [http://genome.microbedb.jp//stanza/genome_projects/resources/projects?taxonomy_id=1117 JSON API] から取得してもらう | * メタデータ: [http://genome.microbedb.jp/cyanobase CyanoBase]の376ゲノムリストはTogoStanzaを利用して提供されており、 [http://genome.microbedb.jp//stanza/genome_projects/resources/projects?taxonomy_id=1117 JSON API] から取得してもらう | ||
- | * ゲノム配列: | + | * ゲノム配列: 遺伝研内のサーバ通しなのでrsyncで提供。非圧縮FASTAで1.4GB【Done】 |
== GGGenomeでの対応 == | == GGGenomeでの対応 == | ||
* CyanoBaseが持っている GCA_000332055.1 などAssembly AccessionをIDとする | * CyanoBaseが持っている GCA_000332055.1 などAssembly AccessionをIDとする | ||
- | * | + | * データの更新があった場合、revision (".1" の部分) が上がるのでadd & deleteで対応できそう |
== Todo == | == Todo == | ||
24行: | 27行: | ||
** TogoStanzaを介して、SPARQLで取得CyanoBaseの表やJSONに追加できるとよさそう | ** TogoStanzaを介して、SPARQLで取得CyanoBaseの表やJSONに追加できるとよさそう | ||
* GGGenomeヒット結果からのリンク生成 | * GGGenomeヒット結果からのリンク生成 | ||
- | ** 現状でも、JBrowseへのリンク生成はできる | + | ** 現状でも、JBrowseへのリンク生成はできる [http://GGGenome.dbcls.jp/rice/TTCATTGACAACATT イネゲノムの例] |
** assembly_id, sequence_id, start, end からCyanoBaseの遺伝子リストを表示するスタンザ開発? | ** assembly_id, sequence_id, start, end からCyanoBaseの遺伝子リストを表示するスタンザ開発? |
2016年12月15日 (木) 09:13時点における最新版
目次 |
GGGenomeにデータを格納するために必要な情報
- GGGenomeヘルプページの検索可能なデータベース一覧に表示されているメタデータ
- Database: hg38
- Source: UCSC
- Group: Mammal
- Species: Human
- 生物種: ヒト
- Latin name: Homo sapiens
- Assembly information: GRCh38/hg38 (Dec, 2013)
- 配列入手先のリンク: http://genome.ucsc.edu/cgi-bin/hgGateway?db=hg38
- ゲノム配列(FASTA形式)
上記の情報があれば、 http://GGGenome.dbcls.jp/hg38/TTCATTGACAACATT [.bed|.json|.txt] のように検索できるようになる。
CyanoBaseの情報提供
- メタデータ: CyanoBaseの376ゲノムリストはTogoStanzaを利用して提供されており、 JSON API から取得してもらう
- ゲノム配列: 遺伝研内のサーバ通しなのでrsyncで提供。非圧縮FASTAで1.4GB【Done】
GGGenomeでの対応
- CyanoBaseが持っている GCA_000332055.1 などAssembly AccessionをIDとする
- データの更新があった場合、revision (".1" の部分) が上がるのでadd & deleteで対応できそう
Todo
- CyanoBaseがもっていない和名・慣用名的なメタデータの取得
- DBpedia、WikiDataあたりを調査 → http://tinyurl.com/gvfj4zw
- integbio/DBcatalog RDFの情報も使えるかも?
- TogoStanzaを介して、SPARQLで取得CyanoBaseの表やJSONに追加できるとよさそう
- GGGenomeヒット結果からのリンク生成
- 現状でも、JBrowseへのリンク生成はできる イネゲノムの例
- assembly_id, sequence_id, start, end からCyanoBaseの遺伝子リストを表示するスタンザ開発?