SPARQLthon29
提供:TogoWiki
2015年2月13日 (金) 09:51時点におけるRyotayamanaka (トーク | 投稿記録)による版
第29回 SPARQLthon を下記日程で開催したいと思います。
目次 |
開催概要
- 開催期間:2015年 2月12日(木) 10:00 〜 13日(金) 18:00
- 開催場所:ライフサイエンス統合データベースセンター (DBCLS) @ 東京大学 柏の葉キャンパス駅前 サテライト 6階
- アクセス:http://dbcls.rois.ac.jp/access
- 開催連絡:http://groups.google.com/group/biohackathon-jp メーリングリストにて
プロジェクト
TPP グループ全体
- ゲノム・メタゲノム情報統合による微生物DBの超高度化推進 (黒川)
- MicrobeDB.jp のインターフェイス改良 (岡別府・森)
- 検索タームが必ずしも引っかからない、もしくはデータのないスタンザが先に表示されているようなケースがある
- 検索キーワードから、ヒットのあるカテゴリや関連キーワードをサジェストし、該当するスタンザをしぼって表示するような UI
- さらに次に表示させることが可能なスタンザをサジェストする機能
- MicrobeDB.jp のインターフェイス改良 (岡別府・森)
- 疾患ヒトゲノム変異の生物学的機能注釈を目指した多階層オミクスデータの統合 (菅野)
- Ontop 用にマッピングファイルを作成中 (河野)
- D2RQ のように自動で RDB スキーマからマッピングファイルを生成するツールを作成中
- D2RQとontopのSQLクエリ比較
- D2RQ用マッピングファイル
- Ontop 用にマッピングファイルを作成中 (河野)
- 植物ゲノム情報活用のための統合研究基盤の構築 (田畑)
- BH14.14で実施した作業の続き
- 植物関連学会ですすめている用語(辞書)整備のためのプラットフォーム作り
- 複数名での編集履歴が共有可能な作業プラットフォーム(→Wikiページ)
- 機能拡張モジュールが沢山提供されているMediaWikiを1.24.1を採用
- 国立情報学研究所から公開されているツールを利用
- 辞書ファイルに基づき1用語あたり1Wikiページを生成できるツール「dicsync」
- http://dictionpedia.ex.nii.ac.jp/index.php?FrontPage, 相澤彰子, 北本朝展, 2007
- 開発者に連絡をとって、サンプルファイルを取得できるようになった
- 本来設定に使用したいphpファイルを読み込ませるだけで画面に何も表示されなくなったりする状況
- → phpの教科書で内容を確認しながら作業を進めている状態
- BH14.14で実施した作業の続き
- 生命と環境のフェノーム統合データベース (桝屋)
- BH14.14/genomeRDF の続きでバイオバンク系の RDF 化、Bio2RDF の利用 (高月)
- JCM 菌株の培養条件や培地などの RDF を微生物統合チームと統合 (高月・森)
- Bio2RDF ダウンロードデータをローカルの Virtuoso にインポートして MGI 関連部分のデータを検証 - MGI は daily 更新だが Bio2RDF の更新頻度は低いので コンバータ をローカル実行する? (高月)
- BH14.14/genomeRDF の続きでバイオバンク系の RDF 化、Bio2RDF の利用 (高月)
- 生物種メタボロームモデル・データベースの構築 (有田)
- ゲノムとフェノタイプ・疾患・医薬品の統合データベース (金久)
- 個別化医療に向けたヒトゲノムバリエーションデータベース (徳永)
- 蛋白質構造データバンクの高度化と統合的運用 (中村)
- 糖鎖統合データベースおよび国際糖鎖構造リポジトリの開発 (成松)
- BH14.14/compound の続きで、単糖を103個も持つような構造検索の SPARQL (A4 で 50 ページになるようなもの) をどう検索するか
- SPARQLthon29/virtuoso(関係あるかも、無いかも)
- 糖鎖ハッカソン 3/10-13 @ 産総研(つくば)で開催
- GlyTouCan を3月リリース予定(現状RDB版をRDFとして公開予定)(木下)
- Java で SPARQL を生成するフレームワークと、RDF を入力して transform/集計 した RDF を出力するようなバッチ処理を実装中 (青木)
- WURCS の RDF を使った部分構造検索のための SPARQL クエリを作成中 → これをもとに Java で SPARQL 自動生成 (新町)
- WURCS 書式のバージョン2を策定中、対応する Java ライブラリを作成中 (松原)
- 糖鎖構造をSPARQLで検索するためのデータ作成 SPARQLthon/glycan/wurcsRDF(山田)
- BH14.14/compound の続きで、単糖を103個も持つような構造検索の SPARQL (A4 で 50 ページになるようなもの) をどう検索するか
各データベースの該当分野とモデル図
SPARQLthon グループ
- DBCLS
- BH14.14/genomeRDF/RefEx の続きで RefEx の RDF 化とユースケース (小野・坊農)
- RefEx を作成するときに捨てていた情報を拾い直して、川島さんと RDF 化するとよさそう
- BH14.14/Docker の続きで、何を Docker 化するのがよいかユースケース (仲里・坊農)
- RefEx で生データを公共DBから取得する際に、データの正規化を Docker コンテナ化すると透明性が確保できそう
- BH14.14/compound の続きで、天然化合物の標準化と RDF 化 (時松)
- 代謝産物(アルカロイド)の骨格情報の文献からの収集(継続)
- 代謝産物(アルカロイド)の骨格情報の階層ファイルの作成(継続)
- 地道な作業が続いているが、方向性が見えてきた
- GGGenome の更新作業と利用規程などの整備 (内藤)
- Terms of use は頻繁に変更できないため完成してから公開予定
- TogoGenome の refseq.fasta を taxonomy domain ごとに分けるほうがよいかも
→ http://togogenome.org/download を使うことができそう (内藤・片山)
- 昨日 (2015/2/11) リリースされた Virtuoso 7.2 の調査 (山本)
- リリースノート によると、ついに URI 関数が実装されていた、R2RML 関連のバグ fix、マルチバイトの扱い(がよくなっているかも)
- SPARQL 1.1準拠状況テスト の結果も参照
- SERVICE句を有効化 する設定は v7.2 でも GUI での作業が必要
- BH14.14/TogoGenome の続きで、insdc2ttl, jbrowse の更新など (守屋・岡別府・片山)
- Assembly report や SRA metadata などからリンク情報を抽出した RDF linkset を生成するフローの運用を相談した(グループ名をつける -- EdgeStore2.0) (桐山・小澤・藤澤・大田・川島・片山)
- TogoGenome 検索結果のタブ化がほぼ完了
- TogoStanza JS 版は今月中くらいにテスト版利用可能予定
- TogoGenome で遺伝子のユニークな ID を <refseq_id>:<locus_tag|gene> にしていたが、ユニークでないことがわかったので、RDF では location も含めた内部 ID で管理し、UI としては <taxonomy_id>:<locus_tag|gene> を使うように戻す(TogoGenome/TogoStanza アプリケーションとして BioProject もしくは Assembly report の Assemble ID で切り替えてみせるようにする or UniProt の taxonomy ID が strain についてもユニークについていればそちらを使う)
- TogoGenome のテキスト検索は gene, org, env, phenotype のレポートタイプごとに検索対象のデータを SPARQL で生成しておくことに
- TogoStanza ポータルに利用する metadata.json (LD) については永野さんがドラフトを作成し、欠けているメタデータは3末をメドにスタンザ開発者が記述する
- BH14.14/genomeRDF/RefEx の続きで RefEx の RDF 化とユースケース (小野・坊農)
- DDBJ
- BH14.14/genomeRDF の続きで、RNA-Seq の RDF 化 (藤澤)
- 進捗を整理し、菅野グループと共通の RDF モデルを利用するということになった (河野・森・藤澤)
- BH14.14/genomeRDF の続きで、RNA-Seq の RDF 化 (藤澤)
- Open TG-GATEs
- BH14.14/genomeRDF/toxico の続きで RDF 化 (伊藤)
- SPARQLthon29での進捗 -- SPARQLthon29/toxico
- BH14.14/genomeRDF/toxico の続きで RDF 化 (伊藤)
- SPARQL builder
- BH14.14/SPARQLBuilder の続きで投稿論文の準備 (戀津・山口)
- 投稿準備ほぼ済&サービスサイトリニューアル SPARQL Builder
- がんゲノム
- http://icgc.link/ Slide(山中 募集中)
- サーバー上の JavaScript のクライアントで CONSTRUCT 結果をダンプして、再度 Virtuoso にロード(完了)
- がんゲノムプロジェクトをスクリプトで追加できるようにして、登録ドナー数を 30 から 530 まで増やした(全部で 12,000)
- 現在 530 ドナーで 18M トリプルなので、12,000 ドナーで 400M トリプル。もう少しリッチにしても 1B に満たないと推測
- DirectMapping定義ファイルを修正して公開に適したRDFデータセットを作成する(残念ながらここまで進まず、進捗なし)
- トリプル追加(class, type, domain, range)、prefix変更に伴うアプリのsparql変更
参考リンク
- これまでの SPARQLthon
参加者
- 片山俊明 (DBCLS)
- 川島秀一 (DBCLS)
- 戀津魁 (理研)
- 小澤健太郎 (SGI)
- 伊藤真和吏 (NIBIO)12日のみ
- 守屋勇樹(DBCLS)
- 藤澤貴智(遺伝研)
- 大田達郎 (DBCLS) 両日共PMのみ
- 永野朗夫(PENQE)13日のみ
- 時松敏明(DBCLS)12日のみ
- 山本泰智 (DBCLS)
- 山田一作 (野口研) 12日PM:別室にて会議
- 坊農秀雅 (DBCLS)
- 小野浩雅 (DBCLS) 12日のみ
- 市原寿子 (かずさDNA研)
- 桝屋啓志 (理研BRC)13日のみ
- 高月照江 (理研BRC)
- 仲里猛留(DBCLS) 12日のみ
- 岡別府陽子(MSS)
- 森宙史(東工大)13日のみ
- 山本希(東工大)13日のみ
- 櫻井望(かずさDNA研)たぶん13日にちょこっと
- 内藤雄樹(DBCLS)
- 木下聖子(創価大)12日のみ
- 青木信行(創価大)12日のみ
- 新町大輔(創価大)12日のみ
- 中尾光輝(エーザイ)
- 山中遼太(先端研)13日のみ
- 山口敦子 (DBCLS)
- 松原正陽(野口研)
- 河野信(DBCLS)