BRC-RDF
提供:TogoWiki
目次 |
目的
バイオリソースセンターに蓄積されている情報をRDF化することで、各センターにメリットのある情報が得られるような仕組みを構築する。
概要
バイオリソースセンターには、各センターが維持している生物種に関する様々な情報が蓄積されている。これまでも、主として微生物培養コレクションに関してRDF化を行っており、TogoGenomeやMircrobeDB.jp等で利用してきた。次に、情報を提供しているバイオリソースセンターにとって、有用なサービスを構築していきたい。その最初の試みとして、各微生物培養コレクション収録された菌株に関して、その菌株のゲノム配列情報が公開された場合に、その情報を収集し、随時各センターへ提供するシステムを構築する。
アイデア
- 各リソースセンターは、研究グループからのリクエストに応じて菌株を提供する。その研究グループが菌株のゲノム配列を決めた場合に、論文には菌株を入手した菌株コレクションのIDは記載されるが、同じ菌株を維持している別の菌株コレクションのIDは記載されない。
- 様々なDBや菌株の来歴情報を用いることで、ゲノムが決まった菌株について、その菌株IDを網羅的に収集することは可能である。
- 各リソースセンターは、一般に、維持している菌株がどのように利用されているかという情報は欲しい。保持している菌株について、ゲノムが決まった場合にその情報を入手できるサービスがあれば有用。
- 似たサービスは、WDCMでもAnalyzer of Bio-resource Citationsとして提供されている。精度は微妙。目的も微妙に違う。
作業
- 各菌株コレクションのメタデータをRDF化する(これまでもNBDC,JCMについては行ってきた。)
- メタデータには、来歴情報が含まれていることがあるので、それもRDF化する
- 菌株来歴情報は、StrainInfo の Make Histri projectで、整備されているが必ずしも正確ではない。
- 一般に、来歴情報を完璧に整備するのは不可能なので、とりあえず可能なレベルで整備する。
- 一方で、ゲノム論文(雑誌を選ぶ必要がある)に対して、菌株コレクションIDが含まれているかテキストマイニングを行い、菌株IDとPMIDの関係をデータ化しておく。
- 必要なAPIを整備する。
- 引数:菌株ID 戻り値:PMID一覧、(+根拠情報)
- 引数:リソースセンター(+期間) 戻り値:菌株ID-PMIDのペア一覧