BH13.13/glycodb

提供:TogoWiki

移動: 案内, 検索

目次

糖鎖データベース

糖鎖の連携

メタボロームと糖鎖

メンバー

金谷(金谷G) 有田(金谷G) 山田(糖鎖G)櫻井(金谷G)

目的

これまで糖鎖Gでは、曖昧な構造を含む糖鎖構造を一意の線形文字列で表記できる表記法としてWURCSを開発してきた。WURCSは糖質部分構造のみを文字列化するので文字列一致により同じ糖質が含まれるかを容易に判断することができる。これまでに糖鎖データベース以外に、PDB、ChEBIなどのデータについてWURCSへの変換を行ってきた。今回は、金谷Gの糖質が含まれる可能性のある低分子データ(フラボノイド、KNApSAcK)をMolfileToWURCS(Molfile形式からWURCSへ変換するソフト: java)でWURCSに変換し、どの程度糖質が含まれるか調査・検討する。



フラボノイド データベースデータの中の糖質を見つける
2014/1/27

有田さんのフラボノイド(FL)のMolfileをWURCSへ変換(Molfile: 有田→山田)。
(現時点のWURCS生成プログラムでは、FLの表記法によりMolfileの単糖の種類(立体)を考慮できない問題がある)

2014/1/28 & 30

フラボノイドIDとWURCSをローカルDBへ登録
WURCS変換結果:
フラボノイド分子数 5479
WURCSが生成されたフラボノイドID 3246
生成されたWURCS(糖質) 3963
WURCS(糖質)の種類 1435


FL1A1AGM0001        WURCS=1.0/1,0/[1X11Xm|1,5]
FL7AAAGL0052        WURCS=1.0/5,4/[12X2Xh|1,5][1X12Xh|1,5][1X12Xh|1,5][12X2Xh|1,5][1X12Xh|1,5]1+1-2,2+6-1*OCC=^EC(C^ECC^ZCC^ZC$6)/9O/8O*/3=O|2+1-2,5+6-1*OCC=^EC(CC^ECC^ECC^Z$6)/9O*/8O/3=O|3+1-2,4+6-1*OCC=^EC(CC^ECC^ECC^Z$6)/9O/8O*/3=O|4+1,5+2
http://metabolomics.jp/wiki/FL1A1AGM0001
http://metabolomics.jp/wiki/FL7AAAGL0052
結果
同一の糖質部分構造を持つフラボノイドデータの例:

ID                                 WURCS

FL5FACGS0045        WURCS=1.0/1,0/[1XX2Xa|1,5]
FL5FFCGS0007        WURCS=1.0/1,0/[1XX2Xa|1,5]

FL3FACGS0068        WURCS=1.0/1,0/[1XX2Xa|1,5|3*OCC/3=O]
                                              ↑ 上記単糖に”3*OCC/3=O”が修飾されている構造の例
フラボノイド分子のMolfileからWURCSが生成されたが、FLのIDをもとにすると糖を含まない分子が475分子含まれていた。
例)http://metabolomics.jp/wiki/FL1B19NF0002
WURCS=1.0/1,0/[UbH|1-2,2:x-1*O(C^ECC^ZCC^ECC^ZCO$7/8$3)/4*|1*O|2:x*OC|3*(CC^ZCCCC$2)]
これらのフラボノイドについて、WURCSにおける対応を今後検討する


KAApSAcKデータの中の糖質を見つける
金谷さんのKNApSAcKの5万件(1000分子毎に分割)molデータをMol2WURCSソフトでWURCSへ変換(Molfile: 金谷→山田)

結果:
KS_00Kmol~KS_08Kmol => OK
KS_09Kmolで以下の分子からWURCS生成に問題がありそう?
http://kanaya.naist.jp/knapsack_jsp/information.jsp?word=C00009344
KS_09Kmolは、C00009344以外はOK(~999)
KS_10Kmol~KS_33Kmol => OK
KS_34KmolでWURCS生成に時間がかかっているので強制終了。(~52/1000)
http://kanaya.naist.jp/knapsack_jsp/information.jsp?word=C00034052
KS_35KmolでWURCS生成に時間がかかっているので強制終了。(~350/1000)
http://kanaya.naist.jp/knapsack_jsp/information.jsp?word=C00035350
KS_36Kmol~KS_50Kmol => OK

2014/1/29

KS_34Kmolは、C00034052は2時間30分でWURCS生成できた。
KS_35Kmolは、C00035350は1時間以内でWURCS生成できた。
KS_09Kmolの、C00009344は2時間30分でWURCS生成できた。


結果:KNApSAcKのMolfileでWURCSのルールで糖質とみなす構造をすべてWURCSへ変換することができた。

2014/1/30

KNApSAcKから生成されたWURCSをローカルDBへ登録(山田)
KNApSAcK分子数 50000?
WURCSが生成されたKNApSAcK-ID 17207
生成されたWURCS(糖質) 19623
WURCS(糖質)の種類 11050
分子内にあるWURCSとその個数のパターンの種類(櫻井) 11307
C00040128
WURCS=1.0/9,8/[12211m|1,5][1211h|1,4][adXdXXdm|1*=O|6*C][adXdXXdm|1*=O|6*C][122h|1,4|3*CO|3*O][X212h|1,5][12122h|1,5][12211m|1,5][12112m|1,5]1+1,2+2|2+1,3+5|3+1,4+5|4+1,9+3|5+1,6+3|6+1,8+4|7+1,8+3|8+1,9+2
同一の糖質部分構造を持つKNApSAcKデータの例:

KNApSAcK-ID     WURCS

C00033248        WURCS=1.0/5,4/[1212h|1,5][1211h|1,5][12122h|1,5][12211m|1,5][12112h|1,5]1+1,3+3|2+1,3+2|3+1,5+4|4+1,5+2
C00033249        WURCS=1.0/5,4/[1212h|1,5][1211h|1,5][12122h|1,5][12211m|1,5][12112h|1,5]1+1,3+3|2+1,3+2|3+1,5+4|4+1,5+2
C00041869        WURCS=1.0/5,4/[1212h|1,5][1211h|1,5][12122h|1,5][12211m|1,5][12112h|1,5]1+1,3+3|2+1,3+2|3+1,5+4|4+1,5+2
C00041870        WURCS=1.0/5,4/[1212h|1,5][1211h|1,5][12122h|1,5][12211m|1,5][12112h|1,5]1+1,3+3|2+1,3+2|3+1,5+4|4+1,5+2
http://kanaya.naist.jp/knapsack_jsp/information.jsp?word=C00041870


2014/1/31

ChEBIの構造からWURCS生成(山田)

メタボロームデータのアノテーションツールとしての可能性を検討

感染症と糖鎖

メンバー

新町 奥田 山本

目的

細菌が生産する糖鎖構造の多様性を調べるためのスキームを作成する。

BCSDB(http://csdb.glycoscience.ru/bacterial/)
糖鎖構造(10503 compound)とそのバクテリア菌株(5810 strain)の対応関係
菌株名と疾患名との関係
PDO(http://bioportal.bioontology.org/ontologies/PDO)
ヒトに感染するバクテリアの感染症のオントロジー

BCSDBとPDOとの連携

BCSDBの疾患名をPDOのオントロジーにマッピング

2014/1/27、28

BCSDBから、生物種と糖鎖構造、生物種とその疾患との関係を取得
BCSDBに登録されている疾患の記述とPDOの記述に対応付けを実施
半自動的にプログラムで対応を取った後、手作業ですべてチェック
BCSDBの疾患名はタイポが多い(20%くらい?)
疾患名ではなく、症状も記述されている

2014/1/29、30

対応の取れなかった疾患の中からPDOに新規に登録出来るものをチェック(山本)
疾患から糖鎖構造を推測するためのSPARQLの開発
糖鎖構造153種類(GlycoCT)、バクテリア:295株 
糖鎖構造が思いの外少ない

2014/1/31

各疾患毎の糖鎖構造をSPARQLで取り出すことができた。
糖鎖構造のリストから部分構造抽出について検討

BCSDB PDO.mapping.png

病気と生物種(バクテリア)と生物種の持つ糖鎖を取得するクエリ(ホストはヒト):
prefix glyco: <http://purl.jp/bio/12/glyco/glycan/> 
prefix dcterms: <http://purl.org/dc/terms/>
prefix bibo: <http://purl.org/ontology/bibo/>
prefix glycodb: <http://purl.jp/bio/12/database/>
prefix uniprot: <http://purl.uniprot.org/core/>

select distinct   ?label ?name ?seq ?img
from <http://csdb.glycoscience.ru/integration/bcsdb>
from <http://csdb.glycoscience.ru/integration/image>
from <http://csdb.glycoscience.ru/integration/bcsdb/pdo/mapping>
from <http://purl.bioontology.org/ontology/PDO>
where
{


?o a glyco:source_natural ;
   glyco:has_taxon ?tax ;
   glyco:hosted_by ?host ;
   glyco:has_reference ?ref .

?tax a uniprot:taxon ;
     uniprot:scientificName ?name .

?host a glyco:source_natural ;
      glyco:has_taxon <http://purl.uniprot.org/taxonomy/9606> ;
      glyco:has_disease ?dise .

?dise rdfs:seeAlso ?pdo .
 

?pdo rdfs:label ?label .

?ref a glyco:referenced_compound ;
     glyco:has_glycan ?glycan .

?glycan owl:sameAs ?sameAs .
?sameAs glyco:has_image ?img .

?glycan glyco:has_glycosequence ?gseq .
?gseq glyco:has_sequence ?seq ;
      glyco:in_carbohydrate_format glyco:glycoct .


} group by ?label 
 limit 20


環境微生物と糖鎖

メンバー

新町 奥田

目的

環境中で合成される糖鎖構造の多様性について調べるためのスキーム開発

「疾患と糖鎖」で作成したスキームでのPDOの部分をTaxonomyあるいは環境微生物の情報に置き換えて対応
Taxonomyの階層と糖鎖構造の関係
各taxonでの糖鎖構造のプロファイル
環境と棲息する微生物種の対応関係(MicrobeDBからなど)
環境による糖鎖構造の多様性の違い

糖鎖構造標準化

脂質

脂質の表記方法はある程度決まっているが国際標準化はない(有田さんから)
文献に記載されている脂質の構造情報もこれまで蓄積された実験的な事実を考慮して記載されている場合が多いらしい。

糖鎖のRDF化

糖質構造のRDF

メンバー

山田

2014/1/30

Virtuoso v7をMacにインストール
Virtuoso へBCSDBのデータを入れた

2014/1/31

KNApSAcK, Flavonoid Database, ChEBIから生成されたWURCSでトリプル作成
WURCSで用いるURIサンプル
http://purl.jp//bio/12/glyco/wurcs/WURCS文字列
  • サンプルデータ
sample of triple:
@prefix glyco: <http://purl.jp/bio/12/glyco/glycan/> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
<http://kanaya.naist.jp/knapsack_jsp/information.jsp?word=C00043421>
    a glyco:glycosequence ;
    glyco:has_sequence "WURCS%3D1.0%2F1%2C0%2F%5B1111deeA%7C1%2C2%7C4-1%2C8-2%2AOCC%5ESOCC%5ERCNCC%5ERN%2A%2F11C%28C%5EZCC%5EZCC%5EZC%2415%29%2F18OC%2F17Cl%2F10%3DO%2F7C%2F6%3DO%2F4CCC%2F29C%2F3%3DO%7C1%2A%28C%29%7C3%2AC%7C8%2A%3DO%5D”^^xsd:string ;
    glyco:in_carbohydrate_format glyco:wurcs . 


Virtuoso へKNApSAcK, Flavonoid Database, ChEBIのデータを入れた
  • 全WURCS取得SPARQLクエリ
SELECT  ?dburi ?wurcs
WHERE   { ?dburi <http://purl.jp/bio/12/glyco/glycan/has_sequence> ?wurcs
          FILTER regex(?wurcs, "WURCS")  }
  • “[12122h|1,5”の部分構造(beta-glucopyranose b-Glcp)を含む糖質取得SPARQLクエリ
SELECT  ?dburi ?wurcs
WHERE   { ?dburi <http://purl.jp/bio/12/glyco/glycan/has_sequence> ?wurcs
          FILTER regex(?wurcs, "%2F%5B12122h%7C1%2C5") }
  • beta-glucopyranose (b-Glcp)

を含むDBIDを取得するSPARQLクエリ

http://purl.jp//bio/12/glyco/wurcs/WURCS=1.0/1,0/[12122h|1,5]
SELECT  ?dburi
WHERE   { ?dburi <http://purl.jp/bio/12/glyco/glycan/has_sequence> <http://purl.jp/bio/12/glyco/wurcs/WURCS%3D1.0%2F1%2C0%2F%5B12122h%7C1%2C5%5D> }

プロテイン名からID

  • プロテイン名からUniprotのIDを調べるSPARQL

エンドポイントURL: http://beta.sparql.uniprot.org/

SELECT ?uniprot_id 
WHERE
{
 ?id ?label "ConA" .
 ?uniprot_id ?p ?id .
 ?uniprot_id a <http://purl.uniprot.org/core/Protein>
}

http://wiki.lifesciencedb.jp/mw/index.php/BH12.12/SPARQLthon/SPARQLendpoints

を参考にする。


back to BH13.13

個人用ツール