SPARQLthon31
提供:TogoWiki
第31回 SPARQLthon を下記日程で開催したいと思います。
目次 |
開催概要
- 開催期間:2015年 4月2日(木) 10:00 〜 3日(金) 18:00 (4日:遺伝研講演会)
- 開催場所:遺伝学研究所 生命情報研究センター棟 (DDBJ棟) 4F会議室 (W403-405) + 生命情報研究棟西棟 DBCLS
- アクセス:http://dbcls.rois.ac.jp/access
- 遺伝研行きのシャトルバスがあります。乗り口は北口から出てロータリー向かって左手です。
- 新幹線ーNIGシャトルバス接続情報
- 9:30出発のシャトルバスに乗ってお越しいただくと、DDBJ棟までご案内します。
- 関東方面からお越しの方は こだま639号 (東京8:26発、品川8:34発) がスムーズです。
- 関西方面からお越しの方は こだま632号 (名古屋7:29発) がスムーズですが、朝が早いので前泊する方が楽です。
- お昼について
- 所内には小さい食堂がありますが、売店などはありません。お弁当などをお持ち頂くことをお勧めします。
- 参考: ランチスポット情報 [三島グルメ]
- 所内には小さい食堂がありますが、売店などはありません。お弁当などをお持ち頂くことをお勧めします。
- 夕食について
- 初日の夕食は参加者のみなさまで三島駅前に出かける予定です。
- ホテルについて
- 駅の周りのホテル
- ホテルアルファワン http://www.alpha-1.co.jp/mishima/ 南口。INSDCミーティングの時に使ってるホテルその1
- ホテルマッシモ三島 http://www.massimo-m.jp 南口。INSDCミーティングの時に使ってるホテルその2
- 東横イン http://www.toyoko-inn.com/hotel/00215/ 北口。あんまりお店がない方だけど遺伝研行きシャトルバス乗り場に近い方
- ドーミーイン http://www.hotespa.net/hotels/mishima/ 南口。温泉があるらしい。
- 駅の周りのホテル
- 開催連絡:http://groups.google.com/group/biohackathon-jp メーリングリストにて
プロジェクト
課題出し → http://tinyurl.com/sparqlthon31-hanami
TPP グループ全体
- ゲノム・メタゲノム情報統合による微生物DBの超高度化推進 (黒川)
- 微生物ゲノムリファレンス RefSeq拡張部分
- RefSeq + GenBank, CDS count <- genomereport/prokaryotes.txt etc.
- 微生物ゲノムリファレンス RefSeq拡張部分
- 疾患ヒトゲノム変異の生物学的機能注釈を目指した多階層オミクスデータの統合 (菅野)
- 三嶋さんとヒトゲノム関係の連携を相談する (河野・三嶋・山本・片山)
- ゲノム上の座標ベースのリンクを FALDO ではなく predicate ベースで? (山本)
- → GA4GH とも
- DBTSS + ToMMo を dbSNP ID 経由でつないでみる6割くらい) + UCSC liftover
- 対応をRDBにいれておいてD2RQでアクセスすると predicate に依存しなくてもできるかも
- 植物ゲノム情報活用のための統合研究基盤の構築 (田畑)
- 果樹などの農業形質・生育環境に関わるオントロジーの構築(市原)
- 3/30(月)にキックオフミーティング
- 参加者: 果樹研・藤井浩先生、NBDC・櫛田さん、かずさ・市原
- 作物形質オントロジーの調査結果報告
- 果樹等の農業形質用語の調査報告
- 対象果樹の選定方法についての方針決定
- 農業情報学会でのオントロジー整備確認
- 品種と形質データのRDF化についての方針決定
- ミーティングに基づく作業の実施
- 3/30(月)にキックオフミーティング
- 果樹などの農業形質・生育環境に関わるオントロジーの構築(市原)
- 生命と環境のフェノーム統合データベース (桝屋)
- お知らせ:理研メタデータベース実験運用開始されました。http://metadb.riken.jp/
- まだα版相当ですがよろしければご覧ください
- 理研の細胞IDとCell line ontologyとのマッピング
- 遺伝研のコンソミックマウスの基本情報+表現型情報のRDF化
- 生物種メタボロームモデル・データベースの構築 (有田)
- フラボノイド構造の分類方針策定(+時松)
- マススペクトルの分析プラットフォームおよび前駆体情報の整理
- ゲノムとフェノタイプ・疾患・医薬品の統合データベース (金久)
- 個別化医療に向けたヒトゲノムバリエーションデータベース (徳永)
- 蛋白質構造データバンクの高度化と統合的運用 (中村)
- 糖鎖統合データベースおよび国際糖鎖構造リポジトリの開発 (成松)
- 糖鎖構造検索SPARQL Query最適化の検討(山田)
- VALUESを利用したQueryにして検討したい。
- 単糖定義について(山田、小寺、時松、有田)
- 化合物構造から糖構造を抽出するルールを決めたい
- ポリケチドと糖の違いは? ポリケチドの特徴である1.炭素鎖の分岐、2.-CHCH(OH)- および、-CHC(=O)- の構造を糖との識別に利用することを検討してみる。
- 候補構造に含まれる骨格炭素鎖の炭素数と分岐数、-CHCH(OH)- および、-CHC(=O)- 構造数の割合を基準にできないか?
- http://www.genome.jp/kegg/catalog/codes3.html
- http://www.genome.jp/kegg/catalog/codes2.html
- 単糖ってどんな構造?
- 炭素鎖と官能基の割合などで区別できないか?
- 化合物構造から糖構造を抽出するルールを決めたい
- 糖鎖構造検索SPARQL Query最適化の検討(山田)
各データベースの該当分野とモデル図
SPARQLthon グループ
- TogoGenome
- テキスト検索APIの仕上げ (岡別府・片山)
- 遺伝子ID (URI) をどうするか (岡別府・藤澤・川島・片山・守屋)
- GA4GH - graph reference genome の RDF 表現 (片山・大田・山本)
- TogoStannza
- JS 版のハンズオン (片山)
- ポータルサイト手直し(永野)
- 可視化ライブラリ(永野)
- オーソログ(千葉)
- 他のオーソログの DB の RDF 化 (OMA)
- 5月にオーソログミーティングがスペインで
- SPARQLクライアント(千葉)
- BioSample - BioProject - SRA metadata
- 前回のelasticsearchのやつのつづき (🐶)
- elasticserach触らず…。
- QCとかのメタデータの処理を高速化するためにDDBJスパコンハックしてました
- 問題
- IOが遅いせいでfastqへの変換とかが遅い
- すぐquotaにひっかかる
- 解決策
- /ssd がマウントされてるノードに行っていったんssdに載せることでIOが遅いのを回避
- フラットファイルでなくgzipでファイルのやりとりをしてquotaに引っかからないようにする
- 超解決策
- fastq-dump --stdout --gzip で標準出力に出してパイプで繋いでストリーミングで次のコマンドに投げるとか
- 問題
- pairedなデータのときに各リードデータを標準出力に分けて出せない
- single endと分かっているデータに関してはこの技が使えそう。
- 問題
- fastq-dump --stdout --gzip で標準出力に出してパイプで繋いでストリーミングで次のコマンドに投げるとか
- 問題
- NBRC サンプルへのTaxonomy ID 付け(川島)
- GenomeRefineのメタデータ入力拡張、Submitter,BioProject相当の定義情報と出力RDFデザイン(藤澤)
- 前回のelasticsearchのやつのつづき (🐶)
- LinkSet-RDF
- データセットの daily 取得と変換のフローの共有 (藤澤・小澤)
- rsync + もろもろのハックで更新が10分以内に
- 対応すべきデータセットの検討 (藤澤・片山)
- LinkDB の RDF デザインの見直し <-- EdgeStore を参考にontologyを整備することに
- Identifiers.org URI 間のリンクを forward/reverse で定義+オリジナルDBへのリンク
- DB間のリンクはVoID+αで定義
- データセットの daily 取得と変換のフローの共有 (藤澤・小澤)
- SPARQL 記述補助(守屋)
- sparql-support (chrome機能拡張), 文字ハイライト版テスト環境
- バグ取り、IE対応(できれば) > 無理
- SPARQL Builder(山口,古崎)
- エンジン改良(特にパス探索まわり)
- ユーザがstart class を指定したとき,end class の候補を裏でパス探索してから出すように変更
- 実装して速度的に問題なかったので,本番環境に反映させた
- パス探索の枝刈りの効果を客観的に評価し,枝刈りのパラメータを最適化する
- 実験の設計&実験環境を実装中
- パスごとに (パスのコスト値, 解のあるなし) を計算し,コスト値の閾値を最小〜最大にしたときのF-measureを計算することで,F-measureを最大化する閾値とその最大値を得る
- ASK を使った枝刈りは遅すぎる場合が時々あって諦めました
- 実験の設計&実験環境を実装中
- ユーザがstart class を指定したとき,end class の候補を裏でパス探索してから出すように変更
- エンジン改良(特にパス探索まわり)
例えば
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> ASK { ?n1 rdf:type <http://www.biopax.org/release/biopax-level3.owl#Dna> . ?n2 rdf:type <http://www.biopax.org/release/biopax-level3.owl#Provenance> . ?n3 rdf:type <http://www.biopax.org/release/biopax-level3.owl#Protein> . ?n1 ?p1 ?n2 . ?n3 ?p2 ?n2 . }
reactome で上記のようなシンプルなクエリが10分たっても帰ってきません. Virtuosoの場合は下記のようにすることで高速化が望めます。(山本)
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> ASK { ?n1 rdf:type ?nt1. ?n2 rdf:type ?nt2. ?n3 rdf:type ?nt3. ?n1 ?x ?n2 . ?n3 ?y ?n2 . VALUES (?nt1 ?nt2 ?nt3) { (<http://www.biopax.org/release/biopax-level3.owl#Dna> <http://www.biopax.org/release/biopax-level3.owl#Provenance> <http://www.biopax.org/release/biopax-level3.owl#Protein> )} }
- 今後課題だし federated search 対応など
- 単純クエリ大量vs複雑クエリ少量
- ファイルを読み込んでオンメモリvsトリプルストア
- subClassOf 問題 SPARQL1.1 の機能を使って解決する?
- 今後課題だし federated search 対応など
- PIERO reaction ontology (小寺、時松、守屋)
- http://reactionontology.org/
- データのキュレーション
- 化合物部分構造データのRDF化とvirtuoso endpointでの動作確認
- 天然物 (山田、時松)
- 今後の方針の検討(アルカロイド整理)
- 整理するアルカロイドの選定について
- Terpenoid alkaloids (BC 5) 152(10) & 220(8)
- Mol.inf page 798 (2014)
- The Alkaloids, Chapter 25 The Biosynthesis of Isoquinolines (1954) Volume 4, 1-6.
- The Alkaloids, Chapter 3 - Alkaloids Containing an Isoquinolinequin one Unit (1999) Volume 53, 119-238.
- 今後の方針の検討(アルカロイド整理)
- 上原 (SGI/京都)
- 化研 LinkDB RDF/endpoint + スタンザ
- 小野・榊原 (協和発酵キリン@三島研)
- 坊農さんのご紹介 ゆくゆくはSPARQLを知らないといけない
- 5〜10年後を目指して医薬品の承認申請に必要なデータの RDF 化
- Python及びRでのSPARQL利用環境の構築、サンプルプログラムの実装
- OpenRefine + RDF Refineの利用環境構築、サンプルデータのRDF化を試行
- 参考にした資料: http://linkedopendata.jp/?p=554
- 医薬品承認申請データのCDISC標準化及びRDF化問題の共有
- 資料
- CDISC: http://www.cdisc.org/
- CDISC標準: http://www.cdisc.org/standards-and-implementations
- 臨床: SDTM, ADaM, 非臨床: SDTM
- CDISC標準のRDF: http://www.cdisc.org/standards/dataexchange
- CDISC標準: http://www.cdisc.org/standards-and-implementations
- 大石 (Dogrun)
- TogoTV, SRA ゆくゆくはSPARQLを知らないといけない
- Docker
- BH14.14/Docker の続き。NGSデータ解析ツールのDocker化とその環境づくり (坊農)
- 中岡 (IMS/横浜理研)
- Galaxy ツールのドキュメント作成、ゆくゆくはSPARQLを知らないといけない
- RNA-Seq のパイプラインの開発
- RDFガイドライン?
- 国情報の記述 (高月、藤澤)
- 櫛田(NBDC)
- 研究データへのDOI登録実験プロジェクトの紹介
- https://japanlinkcenter.org/top/
- 2015年度に予定している研究データに対するDOI本番登録に備え、必要な作業の確認、課題抽出、練習等を行うための作業を実施中(参画機関:NII、AIST、NICT、NIMS、理研BSIなど)
- NBDCではDBアーカイブに登録されているデータセットに対してDOIを付与することを検討。
- 研究データ(実験データ、観測データ、計測データなど広い意味での)研究ゼータ全般が対象。
- 検討中の課題
- 運用フロー
- アクセス持続性の保証
- DOI登録対象の粒度(データセット単位、測定レコード単位、図表単位、プロジェクト単位? 追加・更新した(バージョンの異なる)データに別のDOIを付与するか)
- DOIの活用
- 研究データへのDOI登録実験プロジェクトの紹介
- がんゲノム(山中)
- Data Portal に OWL ファイルを公開する <-- 定義のもれがないかなど、川島さん他に伺う
- Data Portal に RDF データを公開する <-- D2R & AWS 大きめインスタンスで全て変換する
- 今は DirectMapping で定義して D2R で変換していますが、R2RML のよい実行エンジンはありますか?
- AP サーバー(node.js)を公開する <-- SPARQL インジェクション対策 & 実行結果のキャッシング
- SPARQL1.1対応テスト(山本)
- Blazegraph 1.5.1 / Stardog 3.0 / Fuseki 2.0.0
- /mw/BH12.12/SPARQL11test
参考リンク
- これまでの SPARQLthon
参加者
- 片山俊明 (DBCLS)
- 川島秀一 (DBCLS)
- 坊農秀雅 (DBCLS)
- 内藤雄樹 (DBCLS)
- 小野浩雅 (DBCLS)
- 山本泰智 (DBCLS)
- 守屋勇樹 (DBCLS)
- 三嶋博之 (長崎大学・人類遺伝学)
- 山口敦子 (DBCLS)
- 小澤健太郎 (SGI)
- 上原英也 (SGI)
- 大田達郎 (DBCLS)
- 山中遼太 (先端研)
- 榊原雄太 (協和発酵キリン)
- 小野擁子 (協和発酵キリン)
- 永野朗夫 (PENQE)
- 時松敏明 (DBCLS)
- 岡別府陽子(MSS)
- 大石直哉(DOGRUN)
- 古崎晃司(大阪大学)
- 千葉啓和(基生研)
- 藤澤貴智(遺伝研)
- 高月照江(理研BRC)
- 山田一作(野口研)
- 森宙史(東工大)2日午後のみ
- 小寺正明(東工大)2日のみ
- 有田正規(遺伝研)
- 中村保一(遺伝研)
- 望月孝子 (遺伝研)
- 櫛田達矢(NBDC)2日午後のみ
- 市原寿子(かずさDNA)
- 中岡慎治(理研IMS)
- 櫻井望(かずさDNA)不参加すみません