BH16.12/LinkDB

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(PDBjとDDBJをつなぐ)
(PDBjとDDBJをつなぐ)
1行: 1行:
== PDBjとDDBJをつなぐ ==
== PDBjとDDBJをつなぐ ==
-
* UniProtのidmappingにPDB chain と insd protein_id の対応があるが、少し注意を要する。
+
=== UniProtのidmappingにPDB chain と insd protein_id の対応があるが、少し注意を要する。===
いわゆるchain IDには auth_asym_idとlabel_asym_idの2種類がある。
いわゆるchain IDには auth_asym_idとlabel_asym_idの2種類がある。
7行: 7行:
- label_asym_id -> PDB側で統一的に定めたchain ID で必ず A, B, C ... の順で割り振られる。2HKHでは auth_asym_id = L -> label_asym_id = A;  auth_asym_id H -> label_asym_id = B になる。
- label_asym_id -> PDB側で統一的に定めたchain ID で必ず A, B, C ... の順で割り振られる。2HKHでは auth_asym_id = L -> label_asym_id = A;  auth_asym_id H -> label_asym_id = B になる。
-
* auth_asym_id は分子をuniqueに定めない
+
=== auth_asym_id は分子をuniqueに定めない ===
例えば、ヘモグロビン [http://pdbj.org/mine/summary/1hbb 1HBB] (ヘモグロビン)の場合、アルファ鎖のひとつは auth_asym_id = Aだが、それに結合しているヘム及び水分子もauth_asym_id = Aになる。label_asym_id は A (蛋白質)、E(ヘム)、I(水)となる。
例えば、ヘモグロビン [http://pdbj.org/mine/summary/1hbb 1HBB] (ヘモグロビン)の場合、アルファ鎖のひとつは auth_asym_id = Aだが、それに結合しているヘム及び水分子もauth_asym_id = Aになる。label_asym_id は A (蛋白質)、E(ヘム)、I(水)となる。
したがって、auth_asym_id ではPDBエントリーの蛋白質分子に固有のURLが定まらない。
したがって、auth_asym_id ではPDBエントリーの蛋白質分子に固有のURLが定まらない。
-
* entity_id  
+
=== 化合物固有のID entity_id ===
なおPDBには分子の化合物のIDとしてentity_id がある。上記 1HBBの場合、ヘモグロビンのα鎖は2分子含まれており、 label_asym_id = AとCが割り当てられているが、それらのentity_idは共に"1"にである。
なおPDBには分子の化合物のIDとしてentity_id がある。上記 1HBBの場合、ヘモグロビンのα鎖は2分子含まれており、 label_asym_id = AとCが割り当てられているが、それらのentity_idは共に"1"にである。
18行: 18行:
:- http://rdf.wwpdb.org/pdb/1HBB/struct_asym/C
:- http://rdf.wwpdb.org/pdb/1HBB/struct_asym/C
:- http://rdf.wwpdb.org/pdb/1HBB/entity/1
:- http://rdf.wwpdb.org/pdb/1HBB/entity/1
 +
 +
=== 伝統的chain IDと化合物IDの対応 ===
 +
[[http://pdbj.org/mine/sql PDBj Mine SQL]]サービスを使うと対応が取れる。
 +
<pre>
 +
SELECT UPPER(pdbid), entity_id,UNNEST(string_to_array(pdbx_strand_id,',')), '.'
 +
FROM entity_poly
 +
</pre>
 +
 +
label_asym_idとの対応も含めたい場合、
 +
<pre>
 +
SELECT UPPER(e.pdbid), e.entity_id, a.id AS label_asym_id, UNNEST(string_to_array(e.pdbx_strand_id,',')) AS auth_asym_id
 +
FROM entity_poly e
 +
JOIN struct_asym a ON a.pdbid = e.pdbid AND a.entity_id = e.entity_id
 +
</pre>

2016年12月13日 (火) 05:18時点における版

目次

PDBjとDDBJをつなぐ

UniProtのidmappingにPDB chain と insd protein_id の対応があるが、少し注意を要する。

いわゆるchain IDには auth_asym_idとlabel_asym_idの2種類がある。

- auth_asym_id -> 伝統的なchain IDで、登録者が勝手に決める。必ずしも A から始まらない。例: 2HKH (抗体) の L (light chain), H (heavy chain) - label_asym_id -> PDB側で統一的に定めたchain ID で必ず A, B, C ... の順で割り振られる。2HKHでは auth_asym_id = L -> label_asym_id = A; auth_asym_id H -> label_asym_id = B になる。

auth_asym_id は分子をuniqueに定めない

例えば、ヘモグロビン 1HBB (ヘモグロビン)の場合、アルファ鎖のひとつは auth_asym_id = Aだが、それに結合しているヘム及び水分子もauth_asym_id = Aになる。label_asym_id は A (蛋白質)、E(ヘム)、I(水)となる。

したがって、auth_asym_id ではPDBエントリーの蛋白質分子に固有のURLが定まらない。

化合物固有のID entity_id

なおPDBには分子の化合物のIDとしてentity_id がある。上記 1HBBの場合、ヘモグロビンのα鎖は2分子含まれており、 label_asym_id = AとCが割り当てられているが、それらのentity_idは共に"1"にである。

- http://rdf.wwpdb.org/pdb/1HBB/struct_asym/A
- http://rdf.wwpdb.org/pdb/1HBB/struct_asym/C
- http://rdf.wwpdb.org/pdb/1HBB/entity/1

伝統的chain IDと化合物IDの対応

[PDBj Mine SQL]サービスを使うと対応が取れる。

SELECT UPPER(pdbid), entity_id,UNNEST(string_to_array(pdbx_strand_id,',')), '.'
FROM entity_poly

label_asym_idとの対応も含めたい場合、

SELECT UPPER(e.pdbid), e.entity_id, a.id AS label_asym_id, UNNEST(string_to_array(e.pdbx_strand_id,',')) AS auth_asym_id
FROM entity_poly e
JOIN struct_asym a ON a.pdbid = e.pdbid AND a.entity_id = e.entity_id
個人用ツール