SPARQLthon34
提供:TogoWiki
第34回 SPARQLthon を下記日程で開催したいと思います。
目次 |
開催概要
- 開催期間:2015年 7月16日(木) 10:00 〜 17日(金) 18:00
- 開催場所:ライフサイエンス統合データベースセンター (DBCLS) @ 東京大学 柏の葉キャンパス駅前 サテライト 6階
- アクセス:http://dbcls.rois.ac.jp/access
- 開催連絡:http://groups.google.com/group/biohackathon-jp メーリングリストにて
プロジェクト
TPP グループ全体
- 生物種メタボロームモデル・データベースの構築 (有田)
- メタボロームのピークを機械学習で判別するための調査 (櫻井)
- ゲノムとフェノタイプ・疾患・医薬品の統合データベース (金久)
- ゲノム・メタゲノム情報統合による微生物DBの超高度化推進 (黒川)
- MicrobeDB 対象とするリファレンスゲノム配列をどうするか調整 (岡別府・千葉・藤澤・森)
- NCBI assembly report から MBGD の基準でアセンブル ID のサブセットを取得し、NCBI FTP の /genomes/all/アセンブルID/ ディレクトリから取得、ここにない12プロジェクト分については status が suppressed/replaced なので今後は取らなくてよいことに
- GenomeRefine のメタデータとデータ RDF のメタゲノム対応更新のためのデータモデル (藤澤)
- MicrobeDB 対象とするリファレンスゲノム配列をどうするか調整 (岡別府・千葉・藤澤・森)
- 疾患ヒトゲノム変異の生物学的機能注釈を目指した多階層オミクスデータの統合 (菅野)
- バリエーションの RDF 化 (河野)
- 植物ゲノム情報活用のための統合研究基盤の構築 (田畑)
- 座標情報のあるマーカー2000件に、新規に20000件データが追加されたので載せたい (市原)
- 追加された座標データの記述形式が違っていたのでマーカーごとにまとめる方法を検討
- 植物病害キュレーションの自動化 (金・市原)
- PMID がなく DOI しかない文献の URI (市原)
- リテラルの "10.1021/jo0349227" や URN の urn:doi:10.1021/jo0349227 を URI 化する際に http://dx.doi.org/10.1021/jo0349227 ではなく http://doi.org/10.1021/jo0349227 を推奨?→ガイドラインに追記
- PMID については http://rdf.ncbi.nlm.nih.gov/pubmed/<ID> でリンクすることをガイドラインに追記
- 座標情報のあるマーカー2000件に、新規に20000件データが追加されたので載せたい (市原)
- 個別化医療に向けたヒトゲノムバリエーションデータベース (徳永)
- 蛋白質構造データバンクの高度化と統合的運用 (中村)
- 糖鎖統合データベースおよび国際糖鎖構造リポジトリの開発 (成松)
- 糖鎖グループ会議で進捗報告、トリプルストアのデータを RDF でダンプする方法 (新町)
- Virtuoso の dump_one_graph(), dump_nquads() 関数が使えるのではないか → 1つのGRAPHをダンプする方法
- JavaScript で糖鎖構造を描く (土屋)
- WURCS Glycan Viewer: WURCS を入力すると JSON に変換して D3.js で糖鎖構造を描くアプリケーションを開発中。曖昧な構造などの描画が課題。
- 糖鎖構造検索の SPRARQL でごく一部の(あいまいな)構造については検索が時間かかる (いまのところ7日間かかって終わっていない) (山田・松原)
- 糖鎖構造の部分構造を使っての絞り込み検索を、トリプルストアの推論エンジンでやれないか検討中
- GlyTouCan/WURCS 論文ソン (半分終了) (木下・青木)
- GlyTouCanの糖鎖構造(40071件)からGlycoCT形式でデータを取り出し、GlycoCT形式からMolfile形式へ変換(21518件)(松原開発ソフト使用)、IUPACのInChI生成ツール(version 1.0.4)を用いてInChIとInChIKeyを生成し、RDF化した。方法は 天然物RDF化を見てください。 (山田)
- 糖鎖グループ会議で進捗報告、トリプルストアのデータを RDF でダンプする方法 (新町)
- 生命と環境のフェノーム統合データベース (桝屋)
- MGI のデータの RDF 化の準備 (高月)
- 生命動態システム科学のデータベースの統合化(大浪)
SPARQLthon グループ
- ガイドライン改訂 (川島・片山)
- DOI,PMID について追記する
- RDFポータル (川島・片山・櫛田・信定・畠中)
- サブミット状況の確認、今後の進め方として厳しくは取り立てない方針
- 出していただいたデータのクオリティーコントロールを進める
- 当面はマニュアルで確認する
- ガイドラインに沿ったバリデータを(SPINルールなどで)作る
- RDFポータル
- TogoGenome
- 今後の開発方針 (新機能/新スタンザ) (守屋・川島・片山)
- MicrobeDB連携をふくめ更新体制の見直し (藤澤・岡別府・森・千葉・片山)
- テキスト検索 (岡別府)
- TogoStanza
- JS版の位置づけ (BioJS/WebComponents)
- D2RQ
- デザイン修正、Docker版リリース (西澤・永野・山本・片山)
- TogoDB
- Subject URI への rdf:type 指定、Docker化 (西澤・片山)
- SRA -> GEO (坊農)
- DBCLS SRA 生物種データ取得のための改良 (仲里)
- ニッカジRDF更新 (櫛田)
- MOLfile, SDF から、ツールを使ってInChI、InChIKeyを生成する際の注意
- InChI Software v.1.0.4
- 1023 atom 未満であること。
- atom当たりのボンド数は20未満であること。
- ボンドのタイプは、単結合、二重結合、三重結合であること。
- aromatic bondsを含む化合物は、エラーになる。
- aromatic bondsを単/二重結合に変換することで、InChI、InChIKeyを生成することができるが、そのような「変換は推奨しない」と書いてある。 http://www.inchi-trust.org/download/104/inchi-faq.pdf
- OpenBabel2.3.2
- aromatic bondsを持つ化合物を、自動で勝手に単結合などに変換してInChIを生成している? 例、日化辞番号J209.474F(C7H7)と J43.272E(C7H14)のInChI、InChIKey、(Canonical SMILES)が同じになってしまう。
- ACD/ChemSketch Freeware
- aromatic bondsを持つ化合物のMOLファイルを読み込んだ時に、'Imported structure contains aromatic bonds. Try to convert them into the groups of single and double bonds?'と表示される。このとき、"Yes" を選択すると、’aromatic bonds’が単/二重結合に変換されて表示、InChIが生成される。"No" を選択するとそのまま表示される(InChIは生成できない)。
- InChI Software v.1.0.4
- MOLfile, SDF から、ツールを使ってInChI、InChIKeyを生成する際の注意
- NBDC DBカタログ RDF (信定)
- 天然物 RDF 化 (山田)
- InChI生成ソフトによって、生成されるInChIの文字列が異なる(櫛田さん)ことから、KNApSAcKデータについて検証を行ってみた。
- IUPAC InChIの使い方
Linux, Mac
./inchi-1 InChI_TestSet.sdf InChI_TestSet.txt InChI_TestSet.log -AuxNone -Key -SDF:ID
Windows
inchi-1.exe InChI_TestSet.sdf InChI_TestSet.txt InChI_TestSet.log /AuxNone /Key /SDF:ID
rdf:type を変更する。
InChIKey: http://semanticscience.org/resource/CHEMINF_000059 -> InChIKey version 1.0.4: http://semanticscience.org/resource/CHEMINF_000399 InChI: http://semanticscience.org/resource/CHEMINF_000113 -> InChI version 1.0.4: http://semanticscience.org/resource/CHEMINF_000396
KNApSAcKのMolfile(SDFile)データ(48234)を、Open Babel 2.3.1(Oct 13 2011) とIUPAC (InChI version 1, Software version 1.04 Build of September 9, 2011)を利用してInChIへ変換し、RDF化し、Virtuoso7.1@winにロードし、以下のSPARQL Queryで同じIDでInChIの異なるリストを取得した結果、170個のID(重複を含む)において異なるInChIが生成されていた。生成されたInChIを比較したところ立体化学に関連する箇所が異なる場合が多かった。
SELECT str (?id ) as ?KNApSAcKid str ( ?inchiOpenBabel ) AS ?OpenBabel str ( ?inchiIUPAC104 ) AS ?IUPAC where { graph <http://www.glyconavi.org/iupac-inchi/KNApSAcK> { ?is <http://semanticscience.org/resource/CHEMINF_000200> ?is2 . ?is <http://purl.org/dc/terms/identifier> ?iid . ?is2 <http://semanticscience.org/resource/SIO_000300> ?inchiIUPAC104 . ?is2 <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://semanticscience.org/resource/CHEMINF_000396>. } graph <http://www.glyconavi.org/inchi/KNApSAcK> { ?s <http://semanticscience.org/resource/CHEMINF_000200> ?s2 . ?s <http://purl.org/dc/terms/identifier> ?id . ?s2 <http://semanticscience.org/resource/SIO_000300> ?inchiOpenBabel . ?s2 <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://semanticscience.org/resource/CHEMINF_000113> } FILTER ( ?inchiOpenBabel != ?inchiIUPAC104 && ?iid = ?id ) } order by ?id
変換したデータに、多分修正前の間違っている?化学構造データのMolfileが含まれていた?ため以下のIDは今後扱う場合には注意が必要。ファイル名が C00026671.mol ではなく、C00026671.obs.mol(多分修正前)となっている。
C00000118 <-- これはInChIは一致していた。偶然? C00000667 C00011868 C00022921 C00022926 C00023475 C00023709 C00023972 C00024021 C00024089 C00026580 C00026671
- 微生物ゲノム配列解析パイプラインの開発と Galaxy/GitHub への公開 (鈴木)
- GenBank 形式からサブミッションのための DDBJ MSS フォーマットに変換する gbk2ddbj.pl を公開
- 真核生物のオーソログ取得整備、遺伝子ヒストリー (千葉・片山)
- PMID: 25683721 と NASA SWEET と Time tree を混ぜたスタンザを作る
- GGGenome のデータベース一覧(出典・バージョン)のインターフェースとドキュメント整備 (内藤)
- DataTables jQuery プラグインでの UI を開発中 (7/16)
- GGGenomeヘルプ の中程に「検索可能なデータベース一覧」を掲載 (7/17)
- 生物種名や学名で並べ替えやインクリメンタル検索が可能
- そのまま塩基配列検索できるようにしたい
- SPARQL Builder のインターフェイス改善 (戀津)
- 理研バイオリソースセンターの NGS データのメタデータの RDF 化 (小林)
- BioSample / SRA と連携 (藤澤)
- 参考: PMCのURIはこれに準拠して作っている NCBI RDF URI Standards
- SPARQL本
- 仕上げ、フィギュア、例 (片山・山本・川島・岡別府・加藤)
- Health 2.0
- BH連携 (メドピア)
今後の予定
- BioHackathon 2015 参加登録締め切り延長決定 (7/31 まで) → http://2015.biohackathon.org/
- RDF化ガイドライン最新版 → RDFizingDatabaseGuideline
- Reference graph genome セミナー興味のある方参加者募集中
- 7月中に DBCLS 内でいろいろ調査、8月20日に公開セミナー予定
参考リンク
- これまでの SPARQLthon
参加者
- 片山俊明 (DBCLS) チンパンジー
- 川島秀一 (DBCLS) ゴリラ
- 守屋勇樹 (DBCLS) オランウータン
- 小林紀郎 (理研) ゴリラ6,オランウータン1,人間1
- 藤澤貴智(遺伝研)オランウータン
- 永野朗夫(PENQE)16日午後〜、17日 オランウータン
- 坊農秀雅 (DBCLS) チンパンジー
- 小澤健太郎 (SGI) 17日のみ オランウータン
- 上原英也 (SGI) 17日のみ オランウータン
- 千葉啓和(基生研)16日のみ オランウータン
- 仲里猛留(DBCLS)オランウータン
- 山口敦子 (DBCLS) オランウータン
- 戀津魁(理研)17日早退? オランウータン
- 市原寿子(かずさ) オランウータン
- 木下聖子(創価大)16日のみ チンパンジー
- 青木信幸(創価大)16日のみ オランウータン
- 新町大輔(創価大)16日のみ ボノボ
- 藤田晶大(創価大)16日のみ
- 土屋伸一郎(創価大)16日のみ
- 小野浩雅 (DBCLS) 16日のみ
- 山田一作 (野口研) 16AM&17 ボノボ
- 松原正陽 (野口研) 16日のみ オランウータン
- 内藤雄樹(DBCLS)
- 山中遼太(先端研)チンパンジー
- 森宙史(東工大)16日のみ オランウータン
- 高月照江(理研BRC)16日のみ
- 鈴木治夫 (山口大) オランウータン
- 岡別府陽子(MSS)ボノボ
- 櫛田達矢(NBDC)オランウータン
- 畠中秀樹(NBDC) 17日のみ
-
時松敏明 (DBCLS) 17日のみゴリラ - 加藤文彦 (ROIS) 16日のみ オランウータン
- 山本泰智(DBCLS)チンパンジー
- 信定知江(NBDC) 16日16時半まで、17日午前のみ
- 櫻井望(かずさ)17日のみ オランウータン
- 河野信(DBCLS)ゴリラ
- 大田達郎 (DBCLS) チンパンジー
- (金 進東(DBCLS)オランウータン)
- (桝屋啓志(理研)オランウータン)
BBQ 参加登録
夏になりましたので、今回は 7/16 (木) 18:00〜21:00 に 柏の葉オークビレッジで BBQ を開催します。参加希望の方は 7/10 (金) までに記名をお願いします(7/11-12の週末に人数確定の連絡をするため)。参加費は BBQ 3200 円 + 飲み放題 1800 円 の実費となります。→ 台風のため残念ながら中止となりました。。
- 片山
- 川島
- 小林 (理研)
- 守屋
- 永野
- 坊農
- 小澤
- 上原
- 山口
- 戀津
- 市原
- 新町
- 山田
- 山中
- 森
- 松原
- 青木
- 岡別府
- 鈴木
- 木下
- 櫛田
- 加藤
- 山本