BH15.15/PDB UniProt

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(今後やるつもりのこと)
(やること)
 
1行: 1行:
= やること =
= やること =
PDBeの作っている[https://www.ebi.ac.uk/pdbe/docs/sifts/index.html SIFTS]のデータを基にして、PDBのサブユニットとUniProtエントリーのアラインメント情報をRDF化する。
PDBeの作っている[https://www.ebi.ac.uk/pdbe/docs/sifts/index.html SIFTS]のデータを基にして、PDBのサブユニットとUniProtエントリーのアラインメント情報をRDF化する。
 +
 +
= なぜこれが必要か =
 +
PDBのタンパク質は構造決定実験のためだけに変異(indelも含む)が加えられていることが多い。そのため、UniProtの配列がそのままPDBの配列に対応しないことが多い。構造に基づく機能アノテーションを行う際に、UniProtとPDBがどの部分で対応しているかが簡単にわかれば嬉しい(と思う)。
= メンバー =
= メンバー =

2016年3月16日 (水) 07:43時点における最新版

目次

やること

PDBeの作っているSIFTSのデータを基にして、PDBのサブユニットとUniProtエントリーのアラインメント情報をRDF化する。

なぜこれが必要か

PDBのタンパク質は構造決定実験のためだけに変異(indelも含む)が加えられていることが多い。そのため、UniProtの配列がそのままPDBの配列に対応しないことが多い。構造に基づく機能アノテーションを行う際に、UniProtとPDBがどの部分で対応しているかが簡単にわかれば嬉しい(と思う)。

メンバー

  • 金城玲(PDBj)

進行状況

  • 3/15 (Tue) 作業開始→ほぼできた。

方針

Faldo を用いてPDBとUniProtの配列上の位置と領域をそれぞれ定義して、両者の領域を対応させる。

幾つかの課題

  • 領域間の対応を表現する述語は何が適当かわからない。いまのところ適当に <PDBo:region_match_to>としている。
  • 配列上の位置と領域を示すURIは適当に作って良いのか?なにか統一規格は作れるのか?すでにあるのか?
  • どうやって公開するか?

<PDB:101M/entity_poly/1#1>
    <faldo:position> "1" ;
    <faldo:reference> <PDB:101M/entity_poly/1> ;
    <rdf:type> <faldo:ExactPosition> .

<PDB:101M/entity_poly/1#1,154>
    <PDBo:region_match_to> <UP:P02185#1,154> ;
    <falso:begin> <PDB:101M/entity_poly/1#1> ;
    <falso:end> <PDB:101M/entity_poly/1#154> ;
    <rdf:type> <faldo:Region> .

<PDB:101M/entity_poly/1#154>
    <faldo:position> "154" ;
    <faldo:reference> <PDB:101M/entity_poly/1> ;
    <rdf:type> <faldo:ExactPosition> .

<UP:P02185#1>
    <faldo:position> "1" ;
    <faldo:reference> <UP:P02185> ;
    <rdf:type> <faldo:ExactPosition> .

<UP:P02185#1,154>
    <falso:begin> <UP:P02185#1> ;
    <falso:end> <UP:P02185#154> ;
    <rdf:type> <faldo:Region> .

<UP:P02185#152>
    <faldo:position> "152" ;
    <faldo:reference> <UP:P02185> ;
    <rdf:type> <faldo:ExactPosition> .

<UP:P02185#154>
    <faldo:position> "154" ;
    <faldo:reference> <UP:P02185> ;
    <rdf:type> <faldo:ExactPosition> .

今後やるつもりのこと

  • 去年来中断している Biological Unit 中心のアノテーションデータのデータベースおよびRDF化。今年こそやりたい......
    • 大きな課題は巨大構造(>1000 chains / 1M atoms) を扱う計算時間の短縮?(去年はここで挫折した)。なにかアルゴリズム的な工夫が必要そう。
    • もうひとつは多対多の関係をわかりやすく表現する方法?「ちゃんと」やりすぎると扱いが煩雑になるが、ちゃんとしないとごちゃごちゃになる。あるいは慣れの問題?
/mw/BH15.15/PDB_UniProt」より作成