BH15.15/PDB UniProt
提供:TogoWiki
(版間での差分)
細 (→今後やるつもりのこと) |
(→やること) |
||
1行: | 1行: | ||
= やること = | = やること = | ||
PDBeの作っている[https://www.ebi.ac.uk/pdbe/docs/sifts/index.html SIFTS]のデータを基にして、PDBのサブユニットとUniProtエントリーのアラインメント情報をRDF化する。 | PDBeの作っている[https://www.ebi.ac.uk/pdbe/docs/sifts/index.html SIFTS]のデータを基にして、PDBのサブユニットとUniProtエントリーのアラインメント情報をRDF化する。 | ||
+ | |||
+ | = なぜこれが必要か = | ||
+ | PDBのタンパク質は構造決定実験のためだけに変異(indelも含む)が加えられていることが多い。そのため、UniProtの配列がそのままPDBの配列に対応しないことが多い。構造に基づく機能アノテーションを行う際に、UniProtとPDBがどの部分で対応しているかが簡単にわかれば嬉しい(と思う)。 | ||
= メンバー = | = メンバー = |
2016年3月16日 (水) 07:43時点における最新版
目次 |
やること
PDBeの作っているSIFTSのデータを基にして、PDBのサブユニットとUniProtエントリーのアラインメント情報をRDF化する。
なぜこれが必要か
PDBのタンパク質は構造決定実験のためだけに変異(indelも含む)が加えられていることが多い。そのため、UniProtの配列がそのままPDBの配列に対応しないことが多い。構造に基づく機能アノテーションを行う際に、UniProtとPDBがどの部分で対応しているかが簡単にわかれば嬉しい(と思う)。
メンバー
- 金城玲(PDBj)
進行状況
- 3/15 (Tue) 作業開始→ほぼできた。
方針
Faldo を用いてPDBとUniProtの配列上の位置と領域をそれぞれ定義して、両者の領域を対応させる。
幾つかの課題
- 領域間の対応を表現する述語は何が適当かわからない。いまのところ適当に <PDBo:region_match_to>としている。
- 配列上の位置と領域を示すURIは適当に作って良いのか?なにか統一規格は作れるのか?すでにあるのか?
- どうやって公開するか?
例
<PDB:101M/entity_poly/1#1> <faldo:position> "1" ; <faldo:reference> <PDB:101M/entity_poly/1> ; <rdf:type> <faldo:ExactPosition> . <PDB:101M/entity_poly/1#1,154> <PDBo:region_match_to> <UP:P02185#1,154> ; <falso:begin> <PDB:101M/entity_poly/1#1> ; <falso:end> <PDB:101M/entity_poly/1#154> ; <rdf:type> <faldo:Region> . <PDB:101M/entity_poly/1#154> <faldo:position> "154" ; <faldo:reference> <PDB:101M/entity_poly/1> ; <rdf:type> <faldo:ExactPosition> . <UP:P02185#1> <faldo:position> "1" ; <faldo:reference> <UP:P02185> ; <rdf:type> <faldo:ExactPosition> . <UP:P02185#1,154> <falso:begin> <UP:P02185#1> ; <falso:end> <UP:P02185#154> ; <rdf:type> <faldo:Region> . <UP:P02185#152> <faldo:position> "152" ; <faldo:reference> <UP:P02185> ; <rdf:type> <faldo:ExactPosition> . <UP:P02185#154> <faldo:position> "154" ; <faldo:reference> <UP:P02185> ; <rdf:type> <faldo:ExactPosition> .
今後やるつもりのこと
- 去年来中断している Biological Unit 中心のアノテーションデータのデータベースおよびRDF化。今年こそやりたい......
- 大きな課題は巨大構造(>1000 chains / 1M atoms) を扱う計算時間の短縮?(去年はここで挫折した)。なにかアルゴリズム的な工夫が必要そう。
- もうひとつは多対多の関係をわかりやすく表現する方法?「ちゃんと」やりすぎると扱いが煩雑になるが、ちゃんとしないとごちゃごちゃになる。あるいは慣れの問題?