SPARQLthon26
提供:TogoWiki
第26回 SPARQLthon を下記日程で開催したいと思います。
目次 |
開催概要
- 開催期間:11月17日(月) 10:00 〜 18日(火) 18:00
- 開催場所:ライフサイエンス統合データベースセンター (DBCLS) @ 東京大学 柏の葉キャンパス駅前 サテライト 6階
- アクセス:http://dbcls.rois.ac.jp/access
- 開催連絡:http://groups.google.com/group/biohackathon-jp メーリングリストにて
プロジェクト
TPP グループ全体
- ゲノム・メタゲノム情報統合による微生物DBの超高度化推進 (黒川)
- 竹原さんの作った環境メタゲノムの系統組成と機能組成の比較スタンザ、菌の平均相対存在量と環境メタデータとの相関係数スタンザ、その存在量と環境メタデータについてのプロットのスタンザのデバッグ (鈴木)
- デバッグ出来た。
- 動かなかった原因はメタデータのキュレーションをした際にxsdでつけていたデータ型を変更したことと、RDF構造の変化によりPREFIXが変わっていた事
- 竹原さんの作った環境メタゲノムの系統組成と機能組成の比較スタンザ、菌の平均相対存在量と環境メタデータとの相関係数スタンザ、その存在量と環境メタデータについてのプロットのスタンザのデバッグ (鈴木)
- 疾患ヒトゲノム変異の生物学的機能注釈を目指した多階層オミクスデータの統合 (菅野)
- TSS の RDF 化は込山さんが担当中
- EBI Ensembl のバリエーション RDF と同じスキーマが利用できるかどうか検討 (河野)
- 植物ゲノム情報活用のための統合研究基盤の構築 (田畑)
- 植物ゲノム情報のキュレーションの高度化 (市原)
- 植物の遺伝マーカーの情報を文献から収集し物理地図上にマッピングしたデータの RDF 化 → SPARQLthon26/GenomeDataSubset
- 植物ごとにどのゲノム配列を使うかについて整理 → DBCLS (TogoGenome) で基盤データ整備
- 病害キュレーションの RDF 化 (市原)
- 適切なクラスと述語について、複数の生物種が関連して引き起こされる病気の記述方法
- 病害抵抗遺伝子を導入したトランスジェニック植物も、複数の遺伝子を共発現させている場合にどう記述するか
- 植物学分野でのtransgenic organismとtransgeneの取り扱いルールがあるかもしれない→要調査
- マウスのtransgenic organismの取り扱いについて
- 導入される度に、導入先の生物系統と導入された対立遺伝子毎にIDが新たに振られる
- 新たにIDを振るのはキュレーター
- 参考:http://mus.brc.riken.jp/manual/nomen_gene
- 現在RDF化にとりかかっているのはラッカセイ(作物)-> 作物ではトランスジェニック植物の報告が結構ある
- シロイヌナズナでの情報の蓄積がある筈なので、それを参考にするところから始める(標準化されているかは不明)
- マウスのtransgenic organismの取り扱いについて
- 発現や活性が確認されている分子にの情報について
- 遺伝子ID, EC番号だけ, タンパク質名だけなど→EC番号からGOのIDなどを付与
- 河野さんからTogoTableを使っての情報収集方法を教えて頂く(configurationなどの使い方, sparqlの記述の仕方)
- 遺伝子ID, EC番号だけ, タンパク質名だけなど→EC番号からGOのIDなどを付与
- 植物ゲノム情報のキュレーションの高度化 (市原)
- 生命と環境のフェノーム統合データベース (桝屋)
- 黒川研の RDF データと理研の微生物とのデータの差分についての RDF 化方針を検討 (高月)
- 7月の時点で、差分が1300株
- 提供している観点から考え、RDFのデータは毎月更新予定。黒川研で整理された各種データを取り入れつつ毎月の公開データに基づいて、RDFデータを作成する予定。
- データの相互利用を考え、スキーマーの形と、利用するPropertyを同じくして、対応する。
- スキーマーの確認と、利用Property(mccv)の確認作業、マッピングデータの取り扱いについて検討。
- Orphanet の Orphanet Rare Disease Ontology (ORDO) オントロジーを希少疾患用に利用しバイオリソース(患者さん由来のiPS)とリンクする、ICD-10 とのリンクも検討 (矢田)
- 山本さんが厚労省の難病情報センターの希少疾患 (150→300) 報告書から抽出した、日本語の疾患名と ORDO のマッピングが利用できそう (山本)
- sameAs でつないでよいか、broaderMatch とかにした方がよいかを検討する
- 黒川研の RDF データと理研の微生物とのデータの差分についての RDF 化方針を検討 (高月)
- 生物種メタボロームモデル・データベースの構築 (有田)
- ゲノムとフェノタイプ・疾患・医薬品の統合データベース (金久)
- 個別化医療に向けたヒトゲノムバリエーションデータベース (徳永)
- 蛋白質構造データバンクの高度化と統合的運用 (中村)
- 糖鎖統合データベースおよび国際糖鎖構造リポジトリの開発 (成松)
各データベースの該当分野とモデル図
- 国名について何を使うか (NBDC DB archive では dbpedia:country を使っている)
- ISO 3166-1 国名コード
- Gazetteer 国名+α (緯度経度はない - geocoding (Yahooなど複数あり), Google geocoding API, rubygeocoder, geonames, などで対応可能)
- 機関名について何を使うか (NBDC DB archive では rdf:type foaf:Organization のブランクノードで表された機関に rdfs:label として持っている)
- ナイステップ のどこかに Excel データがある (DBCLS は含まれていない)
- JST J-GLOBAL の機関名で検索すると DBCLS も含まれており、RDF 化も進めている (櫛田)
- RDF を公開するか金儲けするか検討中 → 公開してください。。
- 国名について何を使うか (NBDC DB archive では dbpedia:country を使っている)
SPARQLthon グループ
- SPARQL Builder
- SWAT4LS 論文の校正 (完了、提出済)
- 山本さんのprofilerの結果を使って動作確認をする (後で作業)
- チュートリアルを書いていく([1] 作業中)
- SPARQL metadataをSPARQL endpointに置く方法を決める (後で作業)
- (実装が進めば) SPARQLthonに参加されている方に実際に使っていただいてテストと改良点のご指摘をお願いしたい
- (余裕があれば) 試しに使ってみたいユーザのために "Try sample query" ボタンを作る
- SPARQL endpoint metadata 標準化
- Bio2RDF → W3C HCLS のドキュメント http://tinyurl.com/hcls-dataset-description
- Service Description + VoID で足りない部分については Michel が VoID を拡張したものを提案
- Triple data profiler バージョン (山本)
- SPARQL queries to obtain statistics of an endpoint
- SPARQL interface to search the obtained statistics
- いつデータを取ってきたかなど provenance については変更予定
- SPARQL builder バージョン (山口)
- どれかに揃えてください → どれに揃えるかを検討
- Bio2RDF → W3C HCLS のドキュメント http://tinyurl.com/hcls-dataset-description
- Lab note to RDF (Tazro, Jean-Luc)
- LIMS + lab note + reproducibility ...
- TogoGenome
- 培地オントロジーの整理 (川島)
- RefEx の RDF 化 継続 (川島)
- FANTOM5 Nanopub 解読 (川島)
- 真核ゲノム対応、更新系 (岡別府)
- MicrobeDB/MBGD でも真核・原核サブセットの取得が必要 - 取得方針の統合をしよう
- 生物種リスト系スタンザの追加 (守屋)
- TogoGenomeRDFDownload 指定 taxid 以下の RDF ダウンロード (片山)
- TogoStanza
- togostanza.org の設計 (永野)
- TogoStanza の機能設計みなおし (片山)
- PubMed に出てこない文献の識別子(時松、櫛田)
- KNApSAcK 化合物では、トータル 1200 雑誌数、このうち 150 雑誌くらいが頻出 → PubMed にあるかどうかチェック
- カルチャーコレクションのリファレンスで PubMed にない文献情報の RDF 化
- YummyData (山本)
- ついにYummyDataがDBCLSにて稼働。sv01にて毎晩cronジョブにより情報を収集。
- SPARQLエンドポイント
参考リンク
- これまでの SPARQLthon
参加者
- 片山俊明 (DBCLS)
- 川島秀一 (DBCLS)
- 小林紀郎 (理研)
- 山口敦子 (DBCLS)
- 守屋勇樹 (DBCLS)
- 大田達郎 (DBCLS)
- 山本泰智 (DBCLS)
- 時松敏明 (DBCLS)
- 山本 希(東工大)17日のみ
- 鈴木真也(東工大)17日のみ
- 永野朗夫(PENQE)17日のみ
- 藤澤貴智(遺伝研)
- 岡別府陽子(MSS)
- 高月照江 (理研BRC)
- 桝屋啓志 (理研BRC)17日のみ
- 矢田有加里 (理研BRC)17日および18日(未定)
- 平川英樹 (かずさ)18日のみ(予定)
- 市原寿子 (かずさ)
- 千葉啓和(基生研)17日のみ
- 加藤文彦 (ROIS) 17日のみ
- Jean-Luc Perret
- 櫛田達矢 (NBDC)
- 畠中秀樹 (NBDC) 18日のみ
- 戀津魁 (理研)