SPARQLthon41
提供:TogoWiki
第41回 SPARQLthon を下記日程で開催したいと思います。
目次 |
開催概要
- 開催期間:2016年 2月16日(火) 10:00 〜 17日(水) 18:00
- 開催場所:理化学研究所 和光地区 統合支援施設 2F 大会議室
- アクセス:http://www.riken.jp/access/wako-map/ (建物番号 C61)
- 構内徒歩参考写真 : /mw/SPARQLthon30/access
- 構内入り口の守衛所にて、カードキーをお受け取りください。守衛さんのところで名刺を渡すと事務処理が簡単に終わります。
- 所内の食堂は交通系ICカード(Suica等)でのみ支払可能です。
- 開催連絡:http://groups.google.com/group/biohackathon-jp メーリングリストにて
- ネットワーク: 理研ゲスト用無線LANサービス、Eduroam
- 開催期間中にスパコンの見学等のイベントを行います。
プロジェクト
TPP グループ全体
- 生物種メタボロームモデル・データベースの構築 (有田)
- ゲノムとフェノタイプ・疾患・医薬品の統合データベース (金久)
- ゲノム・メタゲノム情報統合による微生物DBの超高度化推進 (黒川)
- 疾患ヒトゲノム変異の生物学的機能注釈を目指した多階層オミクスデータの統合 (菅野)
- 植物ゲノム情報活用のための統合研究基盤の構築 (田畑)
- 個別化医療に向けたヒトゲノムバリエーションデータベース (徳永)
- 蛋白質構造データバンクの高度化と統合的運用 (中村)
- 糖鎖統合データベースおよび国際糖鎖構造リポジトリの開発 (成松)
- GlyTouCanの更新に向けた仕様作成(青木、新町、土屋、松原、山田)
- GlyTouCanのRDFと野口研のWURCSのRDFの記述整合性について打ち合わせ
- GlyTouCanで扱っているGRAPH名に統一性が無かったので、GRAPH名からデータセットがわかるように仕様を検討した。
- GlyTouCan RDFとWURCS RDFの連携のため、新規スキーマを検討し、幾つかをGlycoRDFへ追加する予定。
- 糖鎖構造のd3.jsによる画像化と、SVGのバイナリ変換の調査
- WURCS to IUPAC変換ツール
- WURCS to WURCS-JSON変換ツール
- GlyTouCanの更新に向けた仕様作成(青木、新町、土屋、松原、山田)
- 生命と環境のフェノーム統合データベース (桝屋)
- 微生物のデータ更新とMicrobeDBとの打ち合わせ
- MCCV の培養条件や分離源などの表現について
- 培養条件は MCCV に Condition クラスをつくりインスタンスに培地と温度を記述
- 分離源は MEO のインスタンスとする
- NCBI 塩基配列へのリンクはエントリにしか張れないので DDBJ RDF につなぐ
- MCCV の培養条件や分離源などの表現について
- NGSメタデータについて打ち合わせ
- 薬剤投与してミューテーションしたマウスの NGS データ
- 理研メタデータベースにメタデータを登録し遺伝研 DRA に(RDF経由で)登録するためのワークフロー(RDF設計完了)
- Stanza, Federated query
- 微生物のデータ更新とMicrobeDBとの打ち合わせ
- 生命動態システム科学のデータベースの統合化(大浪)
- プロテオーム統合データベース:jPOST(石濱)
SPARQLthon グループ
- KEGG OC RDF(仮) データ更新(守屋)
- JSTシソーラスオントロジー化試験作業(建石・山本・櫛田)
- 現状の説明
- JSTシソーラス「関連語(RT)」リンクの整理がしたい
- 上位下位関係:IS-AとPART-OF混在
- RT:IS-AやPART-OFも含まれている
- シソーラスには語義は書いていない
- LIFE-SCIENCEに関係する語について関係を整理し、その後その他の分野に広げる
- 4万語のうちLIFE-SCIENCE11000語
- 今年度中は1200語について予備作業→このために法造(大阪大学)を使う
- JSTシソーラスを法造で読めるように法造をカスタマイズ
- RTをIS-A, PART-OF, 属性, 機能, その他に分けることにする
- すでにあるIS-A階層は今年度中は変えない
- 語を追加したり削除したりもしない
- JSTシソーラス「関連語(RT)」リンクの整理がしたい
- 今後の作業の進め方に対する案
- 自動化できるか
- シソーラス構築自動化の目的として(1) 語彙はすでにあって、関係性を学習したい(今のRT見直しを自動化する)、(2) 新規語彙に対して、関係性とともに学習したい、の2つがあると思われる。
- (1)の自動化案として、単純には
- JSTシソーラスと独立に作られたシソーラスTがあるとする。
- Tは上位下位概念にもとづく階層構造になっているとする。
- Tの語で、直接の上位下位ペアになっている語A,Bに対しA,BをJST大規模辞書で検索するとJSTシソーラス上の優先語(a,bとする)が見つかる(はず)
- a,bのJSTシソーラス上での関係がRTだったらIS-Aに変える(候補として、あとで人が見直す?)
- が考えられる。ただし、問題として
- Tの階層を手放しで信じていいか(例:MeSH A08の下 →IS-AではなくPart-Ofではないか)
- Nervous System [A08]
- Central Nervous System [A08.186]
- Brain [A08.186.211]
- Blood-Brain Barrier [A08.186.211.035]
- Brain Stem [A08.186.211.132] +
- Gray Matter [A08.186.211.168]
- White Matter [A08.186.211.204]
- Cerebral Ventricles [A08.186.211.276] +
- Limbic System [A08.186.211.464] +
- Prosencephalon [A08.186.211.730] +
- Meninges [A08.186.566] +
- Spinal Cord [A08.186.854] +
- Brain [A08.186.211]
- Central Nervous System [A08.186]
- IS-A(Part-of含めある種の上位下位)以外の関係性がついている大規模シソーラスはあるか
- WordNet/FrameNet:専門用語が少ない
- 各分野のオントロジー:分野による。ライフサイエンスは比較的オントロジー化が進んでいる分野なので、オントロジーに頼ったやり方ではオントロジーが整備されていない分野に拡張しづらい?
- ライセンス?
- などがあり得ます。
- JST外のシソーラス/抽出ツール(見つけたもの)
- 1)上位下位関係抽出ツール Version1.0
- Wikipediaから箇条書き(「種類」セクションなど)、定義文の解析、カテゴリ階層を利用してIS-A Hierarchyを抽出するツール(2010-10-01、GPLライセンス)
- 2)ALIGNフォーラム(高度言語情報融合フォーラム)が言語資源を持っている
- (A-4)上位語階層データ
- (A-9)基本的意味関係の事例ベース
- (D-2) 意味的関係抽出サービス
- など使えるかも
- 1)のWikipedia上位下位関係抽出ツールもALIGNからDL可
- 3)日本語化したMeSH
- Life Science DictionaryにMeSHとの対応関係がついている。
- LSD自身はNon Derliverable (改変不可)(個別にライセンス契約をする可能性はある)
- DBCLSのFirstAuthor'sは個別契約している
- NBDC横断検索の日英変換にLSDを使っている
- LSD自身はNon Derliverable (改変不可)(個別にライセンス契約をする可能性はある)
- Life Science DictionaryにMeSHとの対応関係がついている。
- 4)日本語Wordnet
- 専門用語が少ない懸念あり
- 5)特許の分類コードがオントロジー化されていないか?
- 進行中らしい研究あり (難波他2014)
- F-タームをオントロジー化するため、パイロットスタディを情報科学分野で行っている。成果オントロジーは公開予定とのこと(現在はまだ見つからない)
- 進行中らしい研究あり (難波他2014)
- 現状の説明
- DBpedia Docker (加藤)
- 目的
- DBpedia JapaneseのインフラをDockerベースにしたい
- 手元で試したい人向けへ提供したい (vagrantも検討すべきか)
- 進捗
- Dockerの勉強がてらvirtuosoのDocker作った.ソースからではなくLinked Data Stackのパッケージを利用.
- GitHub: fumi/docker-virtuoso
- Docker Hub: fumihiro/virtuoso
- ツール検討
- ビルド: 直接かPacker経由か ?
- プロビジョニング: Dockerfile直接 or Chef ?
- オーケストレーション: いまだとdocker-composer + docker-swarmが良い?
- とりあえず単体でVirtuoso + dbpedia_dav.vad + DBpedia Japaneseのデータをbuildできるようにする.
- 参考: Bio-Virtuoso (yayamamo)
- 目的
- Nikkaji-KNApSAcK 化合物間のID対応問題解決のための検討(山田、時松)
- SPARQLによるInChIKey部分文字列検索による日化辞とKNApSAcKのID取得(山田)
- InChIKey部分文字列を用いた Same Connectivityリスト取得による、Nikkaji-KNApSAcK ID対応キュレーションの検討(時松)
- IntegbioDBcatalogとカタログ上でDBにつけるタグのRDF化(信定)
- タグのRDF化(試行)
@prefix skos: <http://www.w3.org/2004/02/skos/core#>. <http://integbio.jp/dbcatalog/resource/theme#tag> a skos:ConceptScheme; skos:prefLabel "tag"@en; skos:prefLabel "タグ"@jp. <http://integbio.jp/dbcatalog/resource/tag/0001> a skos:Concept; skos:prefLabel "Genome/Gene"@en; skos:prefLabel "ゲノム/遺伝子"@jp; skos:description "DB for genomes or genes"@en; skos:description "ゲノムや遺伝子関連のDB"@jp; skos:comment "-"@en; skos:comment "-"@jp.
- DDBJ BioSample submission/validaton用OWL拡張(藤澤)
- 定義するClass、Propertyをリストアップ
- 制約クラスのデータモデルを設計
- これから、DDBJ管理の Attribute, Package定義情報xlsxを入力としたコンバーターの開発
- SPARQL Builder(山口 小林 戀津)
- フェデレート検索対応へ向けた内部構造設計について議論
- がんゲノム(山中)
- 今まで Virtuoso で開発していたが Oracle 12c を試用
- 一部クエリの書き換え(がんゲノム#Fuseki を使う場合の注意)
- オープンサイエンスアワード (🐶)
- 🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋 SPARQLthonでの開発物をノミネートしませんか(してください)!! 🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋
- フォームはこちら http://goo.gl/forms/NzU9z6dYCp
- 拡散にご協力を! :)
- http://www.openscienceaward.org/nomination
- twitter と Facebook のボタンつくりました
- http://www.openscienceaward.org/nomination
- 金曜の夕方にいろんなMLに投げようと思っています、宣伝先にいいMLがあればぜひ教えてください!
- 今のところのリスト
- bioinformatics-jp
- ngs-field
- open-bio
- bioinfowakate
- 今のところのリスト
- 表彰イベントをBH15.15の最終日にやります
- BH15.15の3日間で1番進捗があった人を表彰するスプリンター賞も用意します (予定)
- 🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋 SPARQLthonでの開発物をノミネートしませんか(してください)!! 🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋
- SRA/BioProject/BioSample +AOE統合など(坊農、仲里、大石)
- 統合TVの検索キーワード用固定URL機能 実装 (小野)
- http://togotv.dbcls.jp/ja/?search=DBCLS
- データベースカタログに検索結果へのリンクをつけてもらうため
- 新着論文レビュー 著者用アンケート (飯田・小野)
- http://bit.ly/FA_LA_survey
- もうちょっと質問を構造化したい
- RefEx FANTOM5 CAGE RDF データ のビューア作成プロジェクト (川島・岡別府・大石・小野)
- 岡別府さんによるSPARQL指南
- Row RDF を使って、Stanza 形式で作れそう
- TogoGenome 比較ゲノム機能設計 (片山・川島・永野)
- 比較ゲノム機能の画面設計とSPARQLクエリの開発
- トリプルストアのSPARQL1.1対応調査 BH12.12/SPARQL11test (山本)
- 非RDF構造化データを視覚的にオントロジーにマッピングしてRDF化するツール Karma の調査 (山本)
- Windows 10にvagrantを用いてインストールを試みたが、デプロイは問題なくできたものの、なぜかアクセスできない。→ 後日問題解消
- 久々にData Hub LOD Validatorをチェック。
- 色々と問題点が指摘されているが、具体的にどう対処すればよいのかが不明。
参考リンク
- これまでの SPARQLthon
参加者
- 片山俊明 (DBCLS)
- 川島秀一 (DBCLS)
- 守屋勇樹 (DBCLS)
- 小林 紀郎 (理研)
- 時松敏明 (DBCLS)
- 坊農秀雅 (DBCLS)
- 大田達郎 (DBCLS)
- 山口敦子 (DBCLS)
- 戀津魁 (理研)
- 山本泰智 (DBCLS)
- 千葉啓和(基生研)17日のみ
- 山田一作(野口研究所)
- 大石直哉(DOGRUN)
- 岡別府陽子(MSS)
- 永野朗夫(PENQE)
- 坂井美津保(PENQE)16日のみ
- 加藤文彦 (ROIS)
- 仲里猛留(DBCLS)
- 山中遼太(Oracle)16日のみ
- 信定知江(NBDC)16日のみ 16時半まで
- 小野浩雅(DBCLS)
- 藤澤貴智(遺伝研)
- 桝屋啓志 (理研 BRC)
- 高月照江 (理研 BRC)
- 田中聡 (Trans-IT)
- 櫛田達矢(NBDC)
- 建石由佳(NBDC)
- 新町大輔(創価大)
- 青木信行(創価大)
- 松原正陽(野口研究所)
- 森田巧 (保健同人社)ご報告にて 16日PMのみ
- 森宙史(東工大)17日のみ
- 飯田啓介(DBCLS)
- 森井陽子(理研BSI)