SPARQLthon30
提供:TogoWiki
(版間での差分)
(→SPARQLthon グループ) |
(→SPARQLthon グループ) |
||
152行: | 152行: | ||
*** 2. PMIDがついたものについてはNCBIのサービスで対応するDOIを取得する方向で。PMIDが付与できないものについては、DOI取得方法を今後検討。(櫛田 | *** 2. PMIDがついたものについてはNCBIのサービスで対応するDOIを取得する方向で。PMIDが付与できないものについては、DOI取得方法を今後検討。(櫛田 | ||
+ | * 研究機関のIDはあるのか(櫛田、藤澤、小林で議論) | ||
+ | ** 理研が公開しているデータベースのRDF形式のメタデータが4月に公開される予定。そこでは理研独自のIDを使うが、今後JSTさんが公開予定のIDを採用する予定。 | ||
+ | ** 理研内部の組織(センター等)については、今後も理研独自のIDを振る。ただし、Organisation Ontologyの語彙を使ってセンター等を記述する。 | ||
- | * | + | * 理研のメタデータベースについて(ご紹介) |
+ | ** 理研クラウドを活用した、データ流通を促進する低コストRDFデータベース | ||
+ | |||
+ | * SRAとかBioSampleとかBioProjectとかその他メタデータの更新・公開系をどうにかする案件(おおた藤澤さん川島さん森さん他) | ||
+ | ** ddbjとかmicrobedbとかdbclsとかみんなばらばらに各DBのメタデータ取ってきたりRDF化したりストアに突っ込んだりしていて更新系とかパーサーとか検索系とか乱立するの無駄なので一本化したいですね+全部RDFにしてsparqlエンドポイント建てるだけみたいな感じにしたいですね的 | ||
+ | ** 予定 | ||
+ | *** NCBIなどからソースXMLを定期的にミラーしてくる | ||
+ | **** 複数DBのID関係は藤澤さん・小澤さん案件に任せる | ||
+ | *** ミラーされたXMLをJSONに変換する | ||
+ | **** 現在はxml -> nokogiri -> nori -> ruby object -> jsonという具合 | ||
+ | **** 将来的にはここにパーサを挟んでjson-ldにすればストアに突っ込まれるドキュメントがRDFになって素敵なのでは!? | ||
+ | *** JSONをelasticsearchに突っ込む←イマココ | ||
+ | **** キーワード全文検索の結果としてIDもしくはドキュメントを丸ごと返す | ||
+ | **** 返ってきたら小澤さんのID関係RDFを使って他DBのレコードを辿る | ||
+ | *** 全文検索ができる | ||
+ | *** (゚д゚)ウマー | ||
+ | ** 現実は厳しい | ||
+ | *** ミラーしてくる | ||
+ | **** NCBI SRAのメタデータ更新系が最近怪しい | ||
+ | ***** 毎月1日リリースだったのに最近は変なタイミングで更新される | ||
+ | ***** とりあえず2015年1月のやつを使っている | ||
+ | *** XMLをJSONに | ||
+ | **** ラクをしたくて探したけど社会は厳しい | ||
+ | **** require ‘nori’で幸福が実現した | ||
+ | ** elasticsearch | ||
+ | *** elasticsearch良い | ||
+ | **** ストアも検索も分散してくれるのでスケールしそう | ||
+ | **** スキーマレス、とりあえずjsonを突っ込んだらよしなにインデックス張ってくれる | ||
+ | *** elasticsearchのapiラッパーruby gem ‘stretcher’の開発止まってた | ||
+ | **** elasticsearchはシンプルなRESTful APIで ロードも検索もできるので普通にcurlで叩くことにした | ||
+ | *** elasticsearchの開発を主導してた会社の名前がelasticsearchからelasticに変わってた | ||
+ | **** ウェブサイトがダサいとtwitterで言ったらその会社の人に補足されて気まずい感じになった | ||
== 参考リンク == | == 参考リンク == |
2015年3月26日 (木) 09:00時点における最新版
第30回 SPARQLthon を下記日程で開催したいと思います。
目次 |
開催概要
- 開催期間:2015年 3月12日(木) 10:00 〜 13日(金) 18:00
- 開催場所:理化学研究所 本部・和光事業所 統合支援施設 2階会議室
- アクセス:周辺・構内地図 (和光市駅から徒歩15分、構内地図の建物番号39です) 構内徒歩ルート
- アクセスが不安な方は 9:30 に和光市駅の改札を出たところに集合
- 守衛さんのところで名刺を渡すと事務処理がスムース
- 外部の昼食可能な場所は遠く、所内の食堂は現金払い不可なのでスイカにチャージしてくること
- 開催連絡:http://groups.google.com/group/biohackathon-jp メーリングリストにて
- ネットワーク: 理研ゲスト用無線LANサービス、Eduroam
プロジェクト
今回は、当初 Wiki サーバの調子が悪かったので、一時的に → http://tinyurl.com/sparqlthon30 で作業しています
TPP グループ全体
- ゲノム・メタゲノム情報統合による微生物DBの超高度化推進 (黒川)
- RefSeqゲノムRDFの4者間(TogoGenome, MBGD,遺伝研グループ, MicrobeDB.jp)での統一
- SRAオントロジーの構築
- SRAに入っているデータのメタデータ記述のための語彙
- メタデータオブジェクトの持つフィールドを定義するもの
- 前に見つけたこれがちょっと近いか https://github.com/lindenb/ngs-ontology
- フィールドごとにユーザが記述する値の種類を定義するもの
- Instrument に入る Illumina HiSeq 2500 とか
- library strategy (?) に 入る meta16S とか
- http://trace.ddbj.nig.ac.jp/dra/submission.html
- このへんで定義されてるものからはじめるのがよさそう
- メタデータオブジェクトの持つフィールドを定義するもの
- MDB上のメタゲノムデータのメタデータはMEOでテキストデータをオントロジー化してマッピング/MSVで数値を記述する理念。しかし実際にはMSVでテキストを記述しているものがあるので、汎用的なテキストメタデータはURI指定したい
- 全てをオントロジー化するのは現実的ではないが、MDBで使う一部のオブジェクトへ絞った語彙については作成する予定(Study type, Sequence Machine等)
- 具体的な範囲は未定
- SRAに入っているデータのメタデータ記述のための語彙
- 疾患ヒトゲノム変異の生物学的機能注釈を目指した多階層オミクスデータの統合 (菅野)
- ヒト変異情報、エピゲノム情報などのデータ・モデル標準化について
- D2RQ/ontop の FALDO対応mapping file を作った
- 植物ゲノム情報活用のための統合研究基盤の構築 (田畑)
- 生命と環境のフェノーム統合データベース (桝屋)
- ゼブラフィッシュのリファレンスゲノムをどうするかTogoGenomeと連携
- 厚労省の難治性疾患の病名リストのオントロジー化(保留)
- 糖鎖のノックアウトマウスのデータのRDF化を進めた
- 遺伝子等の情報についてのデータ整理を実施。NCBIのGene ID、MGIのIDとの整理を行った。
- マウスのフェノタイプのRDFデータの整備(継続)
- 生物種メタボロームモデル・データベースの構築 (有田)
- 質量分析データからきれいなメタボロームデータを整備するパイプライン(栽培からデータ解析まで)を確立。生データの取得から1週間のキュレーションで1植物あたり4000化合物をアノテーションできる。初心者にも使えるツールへ落とし込む・・・を目指した
- ゲノムとフェノタイプ・疾患・医薬品の統合データベース (金久)
- 個別化医療に向けたヒトゲノムバリエーションデータベース (徳永)
- 蛋白質構造データバンクの高度化と統合的運用 (中村)
- “Semantic PDB” (バイオロジカルユニット) のRDFのテストデータを作る。-> 作った。
- 600 エントリくらい→5.6万トリプルくらい→62万トリプルくらいになった。
- リガンドの結合する可能性のあるエントリを検索できるようにする
- 蛋白質ー化合物、蛋白質ー蛋白質について検索できるようになった。ただしPPIに関してはbiological でない複合体もあり(Human Protein Kinase * Bovine Protein kinase inhibitorなど)
- GOの述語(“regulates”, etc.)を使ったエントリー間の関係の記述もできた。
- Virtuoso をインストールして遊んでみる。→ インストールして、データのロード、単純なSPARQL queryは確認できた。
- MacPorts からいれるとconductorがないのでソースからコンパイルすべし
- 今後の課題:
- (基本的)「第3正規型」(Functionalな述語)にこだわるか、否か、要検討
- クラス名、述語名を洗練する
- OWLで書く
- 可視化
- “Semantic PDB” (バイオロジカルユニット) のRDFのテストデータを作る。-> 作った。
- 糖鎖統合データベースおよび国際糖鎖構造リポジトリの開発 (成松)
- トリプルストアに関して、糖鎖グループではオープンソースのVirtuosoを利用しているが、パフォーマンスに不満がある。SPARQLの書き方で改善されるかもしれないが他のグループがどのような環境で利用しているかについて教えていただきたい。和光に参加できないので3月12日午前あたりにSkypeで相談できればありがたい。(青木、木下、山田) - ありがとうございました。
- 生命動態システム科学のデータベースの統合化 (大浪)
- 顕微鏡などからの時空間情報データベース
- 生物種などのメタ情報をRDFで記述して、他のデータベースと相互利用するための打ち合わせをしたい
- メタ情報のRDF化はなんとかできそう(SSBDおよびBDML)
各データベースの該当分野とモデル図
SPARQLthon グループ
- 酵素反応オントロジーPIERO (小寺, 時松, 守屋)
- KCF-S化学部分構造データ(ヒドロキシル基、アデニル基など)との統合
- 反応を表す語彙(hydroxylation、hydration、hydrogenationなど)の整理
- textarea での sparql 記述補助(自動補完、インデントなど、タブ打ってれば良い感じのオレオレ) = sparql editor (?)
- テストサイト http://web.kuicr.kyoto-u.ac.jp/supp/moriya/piero/edit/test2.html
- 類似品 yasgui, gosparqled など
- highlight 無しなら<textarea name="query">で、js読み込むだけで動きます
- Open TG-GATEs(伊藤)
- BH14.14/genomeRDF/toxico の続きで RDF 化
- マイクロアレイの遺伝子発現量のデータのRDF化
- サンプルのRDFの作成
- 関連するRDFを修正してwikiのページ&スキーマを修正
- オントロジーファイルの作成
- 今後の課題
- 遺伝子関連のデータはサンプルデータしか作成していないので,実際のRDFを作成する。データ量が多くなると思われるので,遺伝子発現の数値を入れるべきかどうかは計算量から判断するか,実際のシステムとは切り離す。
- 培地オントロジー開発(川島)
- ゲノム微生物学会で発表、BioPortalに登録した
- JCMの培地のRDF化が終了した→TogoGenomeにいれたい
- オントロジー開発の継続
- ID間のリンクセットRDF(藤澤・小澤)
- RDFデータモデルと更新系 → assembly_reports.ttl生成まで30分程度(予定)
- Assemblyレポートからのデータ抽出でIDリンクだけ別途とるのはどうなのかなど検討
- 残りのDB間のリンク情報をどのように整備していくか相談
- → /mw/SPARQLthon30/GenomeDataSubset
- BH14.14/Docker の続きで、何を Docker 化するのがよいかユースケース出し (坊農)
- https://github.com/inutano/docker-ngs-tools
- みんなでこれを埋めましょう的
- 埋めるために各ツールの動かし方を調査…
- みんなでこれを埋めましょう的
- RefExで提供している公開データ→処理データを再現するDockerfileの作成(小野)
- coreosで各コマンドは動いて、buildはできるけどrunできないDockerfile はできた
- R実行時の、ARGUMENT 'hoge' __ignored__ 問題が解決できず
- https://github.com/hiromasaono/RefEx/blob/master/rawdata_processing/human/GeneChip/GSE7307/
- スパコンで動作させるためにNGS関係のソフトウェア等のDockerfileの作成やGentoo Prefixのebuildファイル作成を行う(小笠原)
- http://rgm3.lab.nig.ac.jp/Code-lab/nig-supercomputer/kcbsmq
- http://github.com/code-lab-0/nig-sc-overlay-bioinfo
- 今はもう動かなくなったソフトのリバイバル(Wise2とか)
- https://github.com/inutano/docker-ngs-tools
- SPARQLBuilder
- 本番環境はレビュー中→返ってきました(条件付き採録)
- 論文thonで加筆修正対応
- 停電対策→済
- 機能改良→0件の場合は表示を省略など←レビューで指摘されてたので必須になりました.実装途中
- 分散検索などを今後は進めたい
- 本番環境はレビュー中→返ってきました(条件付き採録)
- 日化辞のRDF化(櫛田)
- 5月公開が決定した
- 元データ(J-Global版日化辞RDFデータ)の化合物のシノニムに、全角英数ならびに全角ハイフンが含まれているので、これらを半角英数ならびに半角マイナスに変換し、NBDC版日化辞RDFデータに追加する。
- Unicode::Japaneseモジュール(http://search.cpan.org/~hio/Unicode-Japanese/lib/Unicode/Japanese/JA.pod)
- # Unicode::Japanese->new( $line )->z2h->get (すべてを半角に変換)
- # Unicode::Japanese->new( $line )->h2zKana->get (カタカナだけを全角に変換)
- KNApSAcKの文献リファレンスづけ(時松・山口・櫻井・櫛田)
- KNApSAcKの引用文献にPubmedIDおよびDOIを付与することを進めている。
- これまでの取り組み。
- 方針:まず、PMIDを付ける。
- 手順
- 1. NCBIのサービスを使ってPMIDを付ける(NCBI e-Utilitites or NCBI Batch Citation Matcher)。
- BLAH2015でKNApSAcK文献-PMID対応データ取得を試行(時松)
- 供試リスト: 28,193 文献 (冗長性除去不完全な temporary data、書籍データは除く)
- 一意なPMID付与できたもの: 8314文献(8029 PMID)
- AMBIGUOUS(PMIDが複数付与される): 11文献
- NOT_FOUND: 14265 文献
- NOT_FOUND;INVALID_JOURNAL 5603 文献
- 問題点と今後:
- 1. INVALID_JOURNALが帰ってくるものについては、文献の省略形がPubMedの文献名と合わなくて取れていない可能性あり。文献省略形問題の処理が必要(山本さんに文献DBなど教えていただいたので今後検討)
- 2.今回の試行データはRefineが十分でないので、OpenRefineを使うなどしてデータのRefineをする。
- 2. PMIDがついたものについてはNCBIのサービスで対応するDOIを取得する方向で。PMIDが付与できないものについては、DOI取得方法を今後検討。(櫛田
- 1. NCBIのサービスを使ってPMIDを付ける(NCBI e-Utilitites or NCBI Batch Citation Matcher)。
- 研究機関のIDはあるのか(櫛田、藤澤、小林で議論)
- 理研が公開しているデータベースのRDF形式のメタデータが4月に公開される予定。そこでは理研独自のIDを使うが、今後JSTさんが公開予定のIDを採用する予定。
- 理研内部の組織(センター等)については、今後も理研独自のIDを振る。ただし、Organisation Ontologyの語彙を使ってセンター等を記述する。
- 理研のメタデータベースについて(ご紹介)
- 理研クラウドを活用した、データ流通を促進する低コストRDFデータベース
- SRAとかBioSampleとかBioProjectとかその他メタデータの更新・公開系をどうにかする案件(おおた藤澤さん川島さん森さん他)
- ddbjとかmicrobedbとかdbclsとかみんなばらばらに各DBのメタデータ取ってきたりRDF化したりストアに突っ込んだりしていて更新系とかパーサーとか検索系とか乱立するの無駄なので一本化したいですね+全部RDFにしてsparqlエンドポイント建てるだけみたいな感じにしたいですね的
- 予定
- NCBIなどからソースXMLを定期的にミラーしてくる
- 複数DBのID関係は藤澤さん・小澤さん案件に任せる
- ミラーされたXMLをJSONに変換する
- 現在はxml -> nokogiri -> nori -> ruby object -> jsonという具合
- 将来的にはここにパーサを挟んでjson-ldにすればストアに突っ込まれるドキュメントがRDFになって素敵なのでは!?
- JSONをelasticsearchに突っ込む←イマココ
- キーワード全文検索の結果としてIDもしくはドキュメントを丸ごと返す
- 返ってきたら小澤さんのID関係RDFを使って他DBのレコードを辿る
- 全文検索ができる
- (゚д゚)ウマー
- NCBIなどからソースXMLを定期的にミラーしてくる
- 現実は厳しい
- ミラーしてくる
- NCBI SRAのメタデータ更新系が最近怪しい
- 毎月1日リリースだったのに最近は変なタイミングで更新される
- とりあえず2015年1月のやつを使っている
- NCBI SRAのメタデータ更新系が最近怪しい
- XMLをJSONに
- ラクをしたくて探したけど社会は厳しい
- require ‘nori’で幸福が実現した
- ミラーしてくる
- elasticsearch
- elasticsearch良い
- ストアも検索も分散してくれるのでスケールしそう
- スキーマレス、とりあえずjsonを突っ込んだらよしなにインデックス張ってくれる
- elasticsearchのapiラッパーruby gem ‘stretcher’の開発止まってた
- elasticsearchはシンプルなRESTful APIで ロードも検索もできるので普通にcurlで叩くことにした
- elasticsearchの開発を主導してた会社の名前がelasticsearchからelasticに変わってた
- ウェブサイトがダサいとtwitterで言ったらその会社の人に補足されて気まずい感じになった
- elasticsearch良い
参考リンク
- これまでの SPARQLthon
参加者
- 片山俊明 (DBCLS)
- 川島秀一 (DBCLS)
- 小林紀郎 (理研)
- 戀津魁 (理研)
- 伊藤真和吏 (NIBIO)
- 守屋勇樹(DBCLS)
- 坊農秀雅 (DBCLS)
- 金城玲(PDBj)
- 山口敦子 (DBCLS)
- 山本泰智 (DBCLS) 13日のみ
- 小野浩雅 (DBCLS)
- 永野朗夫 (株式会社PENQE)
- 時松敏明(DBCLS)
- 大田達郎 (DBCLS)
- 小笠原理 (遺伝研)
- 小澤健太郎 (SGI) 12日は14時半くらいまで
-
上原英也 (SGI) - 岡別府陽子(MSS)
- 京田耕司 (理研QBiC)
- 遠里由佳子 (理研QBiC)
- 櫛田達矢(NBDC)
- 藤澤貴智(遺伝研)
-
市原寿子(かずさ)済みません。今回は参加を取り消し致します。 - 小寺正明(東工大)
- 鈴木真也(東工大) 12日のみ
- 高月照江(理研BRC)
- 桝屋啓志(理研BRC)12日のみ
- 森宙史(東工大)12日のみ
- 櫻井望(かずさ)12日のみ