BH14.14/SemPDB
提供:TogoWiki
目次 |
(More) Semantic PDB
動機
- 現在のwwPDB/RDFはPDBの元データを忠実にRDFに翻訳したもの。
- PDBのデータそのものはあくまでも構造決定実験のデータなので、そのままでは生物学的な意味は希薄。
- ちょこっと整理し直すことで、他のよりbiology-orientedなDBのデータとの整合性が高められる?
方針
- できるだけ既存の標準化されたオントロジーをつかう。
- 立体構造の詳細にはこだわらない。
- 構造の有る無し、複合体、などを中心にアノテーションする。
- できるだけコンパクトなデータにする。
「できるといいな」なこと
- TogoGenome 相当の「抽象的な」検索
- PDBの冗長性をうまくまとめる。
- UniProt accession をキーにしてグループ化できないか?
- 構造/配列の類似性でまとめるのはあまりよろしくないので。
- 冗長なエントリ(複合体)間の関係も記述できるとなお良い。(e.g., human hemoglobin 1A00 <-> 1BAB)
- UniProt accession をキーにしてグループ化できないか?
- あるリガンドを結合しうるけれども結合していない構造の検索
(ああ、想像力の欠如……)
利用できそうなオントロジー
- taxonomy
- GO
- EC number (?)
- BioPAX?
- anything else?
たとえば、こんな感じ?
@prefix PDBr: <http://rdf.wwpdb.org/pdb/> . @prefix bp: <http://www.biopax.org/release/biopax-level3.owl#> . @prefix up: <http://purl.uniprot.org/core/> . @prefix taxid: <http://identifiers.org/taxonomy/> . @prefix PDBs: <http://pdbj.org/sempdb/> . # tekitou! PDBr:1A00/pdbx_struct_assembly/1 a bp:Complex ; bp:componentStoichiometry PDBs:1A00/stoichiometry/1 ; bp:component PDBr:1A00/entity/1 ; bp:componentStoichiometry PDBs:1A00/stoichiometry/2 ; bp:component PDBr:1A00/entity/2 ; bp:componentStoichiometry PDBs:1A00/stoichiometry/3 ; bp:component PDBr:1A00/entity/3 . PDBs:1A00/stoichiometry/1 a bp:Stoichiometry ; bp:stoichiometricCoefficient 2 ; bp:physicalEntity PDBr:1A00/entity/1 . PDBs:1A00/stoichiometry/2 a bp:Stoichiometry ; bp:stoichiometricCoefficient 2 ; bp:physicalEntity PDBr:1A00/entity/2 . PDBs:1A00/stoichiometry/3 a bp:Stoichiometry ; bp:stoichiometricCoefficient 4 ; bp:physicalEntity PDBr:1A00/entity/3 . PDBr:1A00/entity/1 a bp:Protein ; bp:name "Hemoglobin alpha chain" ; up:organism tax:9606 ; rdfs:seeAlso http://purl.uniprot.org/uniprot/P69905 . PDBr:1A00/entity/2 a bp:Protein ; bp:name "Hemoglobin beta chain" ; up:organism tax:9606 ; rdfs:seeAlso uniprot:P68871 . PDBr:1A00/entity/3 a bp:SmallMolecule ; bp:name "Heme" ; rdfs:seeAlso chebi:17627 .
妄想独自オントロジー
Protege で試しに作り始めた。
:A :boundWith :L . # リガンド結合状態の構造 :A :uniprot :U1 . :B :uniprot :U1 . # リガンド非結合状態の構造
から
:B :notBoundWith :L . # リガンド L を結合できるけどしていない構造
を推測できる?→リガンドを結合していないエントリの可能なリガンドを検索できるかも。
SELECT * { ?p1 :boundWith :ADP ?p2 :uniprot ?u ?p2 :uniprot ?u FILTER NOT EXISTS { ?p2 :boundWith :ADP } }
SemanticPDB.owl を作った
- Biological assembly を基本エントリにする。BiologicalAssembly Class。
- Physical structure を Structure Class, chemical structure を Entity Class として区別する。
- CrossRef Class で他のRDFリソースとリンク。
疑問
- transitive でない property を辿った推論を可能にする定義はできるか?
たとえば、
A has_component B . B has_entity C .
ならば
A has_subunit C .
を推論できるようにしたい。
雑記
- やはり独自オントロジーか?
- BioPAX は「対象そのもの」ではなく「対象のアノテーション」についてのオントロジー?
- 「同じ複合体である」、「同じ複合体だがリガンドが違う」などの述語があるとよい。
- MeSH RDF http://id.nlm.nih.gov/mesh/ 各タームはインスタンス。
- PubChemで化合物の分類にも使われている。例: https://pubchem.ncbi.nlm.nih.gov/compound/44134521#section=MeSH-Tree
- PDBのchem_compとつなげられないか?
- Biological assembly を「エントリ」として考える。
- PhysicalEntity (PDBx:struct_asym) と ChemicalEnity (PDBx:entity)を分けて考える。
- 1A00 ヘモグロビンα鎖 A, C は二つの異なる PhysicalEntity だが、同一の ChemicalEntity と考える。
- Stoichiometry は ChemicalEntity で数える。
- 対称操作でつくった生物学的単位に A chain が2つある場合、、、
- 同一の PhysicalEntity が2つあると考える?
- 異なる PhysicalEntity がそれぞれ1つずつあると考える?(←こっちにする!)