SPARQLthon34

提供:TogoWiki

移動: 案内, 検索

第34回 SPARQLthon を下記日程で開催したいと思います。

目次

開催概要

プロジェクト

TPP グループ全体

SPARQLthon グループ

  • ガイドライン改訂 (川島・片山)
    • DOI,PMID について追記する
  • RDFポータル (川島・片山・櫛田・信定・畠中)
    • サブミット状況の確認、今後の進め方として厳しくは取り立てない方針
    • 出していただいたデータのクオリティーコントロールを進める
      • 当面はマニュアルで確認する
      • ガイドラインに沿ったバリデータを(SPINルールなどで)作る
    • RDFポータル
  • TogoGenome
    • 今後の開発方針 (新機能/新スタンザ) (守屋・川島・片山)
    • MicrobeDB連携をふくめ更新体制の見直し (藤澤・岡別府・森・千葉・片山)
    • テキスト検索 (岡別府)
  • TogoStanza
    • JS版の位置づけ (BioJS/WebComponents)
  • D2RQ
    • デザイン修正、Docker版リリース (西澤・永野・山本・片山)
  • TogoDB
    • Subject URI への rdf:type 指定、Docker化 (西澤・片山)
  • SRA -> GEO (坊農)
  • DBCLS SRA 生物種データ取得のための改良 (仲里)
  • ニッカジRDF更新 (櫛田)
    • MOLfile, SDF から、ツールを使ってInChI、InChIKeyを生成する際の注意
      • InChI Software v.1.0.4
        • 1023 atom 未満であること。
        • atom当たりのボンド数は20未満であること。
        • ボンドのタイプは、単結合、二重結合、三重結合であること。
        • aromatic bondsを含む化合物は、エラーになる。
        • aromatic bondsを単/二重結合に変換することで、InChI、InChIKeyを生成することができるが、そのような「変換は推奨しない」と書いてある。 http://www.inchi-trust.org/download/104/inchi-faq.pdf
      • OpenBabel2.3.2
      • ACD/ChemSketch Freeware
        • aromatic bondsを持つ化合物のMOLファイルを読み込んだ時に、'Imported structure contains aromatic bonds. Try to convert them into the groups of single and double bonds?'と表示される。このとき、"Yes" を選択すると、’aromatic bonds’が単/二重結合に変換されて表示、InChIが生成される。"No" を選択するとそのまま表示される(InChIは生成できない)。
  • NBDC DBカタログ RDF (信定)
  • 天然物 RDF 化 (山田)
    • InChI生成ソフトによって、生成されるInChIの文字列が異なる(櫛田さん)ことから、KNApSAcKデータについて検証を行ってみた。
    • IUPAC InChIの使い方

Linux, Mac

./inchi-1 InChI_TestSet.sdf InChI_TestSet.txt InChI_TestSet.log -AuxNone -Key -SDF:ID

Windows

inchi-1.exe InChI_TestSet.sdf InChI_TestSet.txt InChI_TestSet.log /AuxNone /Key /SDF:ID

rdf:type を変更する。

InChIKey: http://semanticscience.org/resource/CHEMINF_000059
   ->   InChIKey version 1.0.4: http://semanticscience.org/resource/CHEMINF_000399
InChI: http://semanticscience.org/resource/CHEMINF_000113
   ->   InChI version 1.0.4: http://semanticscience.org/resource/CHEMINF_000396

KNApSAcKのMolfile(SDFile)データ(48234)を、Open Babel 2.3.1(Oct 13 2011) とIUPAC (InChI version 1, Software version 1.04 Build of September 9, 2011)を利用してInChIへ変換し、RDF化し、Virtuoso7.1@winにロードし、以下のSPARQL Queryで同じIDでInChIの異なるリストを取得した結果、170個のID(重複を含む)において異なるInChIが生成されていた。生成されたInChIを比較したところ立体化学に関連する箇所が異なる場合が多かった。

SELECT str (?id ) as ?KNApSAcKid   str ( ?inchiOpenBabel ) AS ?OpenBabel  str ( ?inchiIUPAC104 ) AS ?IUPAC
where {
  graph <http://www.glyconavi.org/iupac-inchi/KNApSAcK> {
    ?is <http://semanticscience.org/resource/CHEMINF_000200> ?is2 .
    ?is <http://purl.org/dc/terms/identifier> ?iid .
    ?is2 <http://semanticscience.org/resource/SIO_000300> ?inchiIUPAC104 .
    ?is2 <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://semanticscience.org/resource/CHEMINF_000396>.
  }
  graph <http://www.glyconavi.org/inchi/KNApSAcK> {
    ?s <http://semanticscience.org/resource/CHEMINF_000200> ?s2 .
    ?s <http://purl.org/dc/terms/identifier> ?id .
    ?s2 <http://semanticscience.org/resource/SIO_000300> ?inchiOpenBabel .
    ?s2 <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://semanticscience.org/resource/CHEMINF_000113>
  }
  FILTER ( ?inchiOpenBabel != ?inchiIUPAC104  && ?iid = ?id )
}
order by ?id

変換したデータに、多分修正前の間違っている?化学構造データのMolfileが含まれていた?ため以下のIDは今後扱う場合には注意が必要。ファイル名が C00026671.mol ではなく、C00026671.obs.mol(多分修正前)となっている。

	C00000118 <-- これはInChIは一致していた。偶然?
C00000667
C00011868
C00022921
C00022926
C00023475
C00023709
C00023972
C00024021
C00024089
C00026580
C00026671
  • 微生物ゲノム配列解析パイプラインの開発と Galaxy/GitHub への公開 (鈴木)
    • GenBank 形式からサブミッションのための DDBJ MSS フォーマットに変換する gbk2ddbj.pl を公開
  • 真核生物のオーソログ取得整備、遺伝子ヒストリー (千葉・片山)
  • GGGenome のデータベース一覧(出典・バージョン)のインターフェースとドキュメント整備 (内藤)
    • DataTables jQuery プラグインでの UI を開発中 (7/16)
    • GGGenomeヘルプ の中程に「検索可能なデータベース一覧」を掲載 (7/17)
      • 生物種名や学名で並べ替えやインクリメンタル検索が可能
      • そのまま塩基配列検索できるようにしたい
  • SPARQL Builder のインターフェイス改善 (戀津)
  • 理研バイオリソースセンターの NGS データのメタデータの RDF 化 (小林)
    • BioSample / SRA と連携 (藤澤)
    • 参考: PMCのURIはこれに準拠して作っている NCBI RDF URI Standards
  • SPARQL本
    • 仕上げ、フィギュア、例 (片山・山本・川島・岡別府・加藤)
  • Health 2.0
    • BH連携 (メドピア)

今後の予定

  • Reference graph genome セミナー興味のある方参加者募集中
    • 7月中に DBCLS 内でいろいろ調査、8月20日に公開セミナー予定

参考リンク


参加者

  • 片山俊明 (DBCLS) チンパンジー
  • 川島秀一 (DBCLS) ゴリラ
  • 守屋勇樹 (DBCLS) オランウータン
  • 小林紀郎 (理研) ゴリラ6,オランウータン1,人間1
  • 藤澤貴智(遺伝研)オランウータン
  • 永野朗夫(PENQE)16日午後〜、17日 オランウータン
  • 坊農秀雅 (DBCLS) チンパンジー
  • 小澤健太郎 (SGI) 17日のみ オランウータン
  • 上原英也 (SGI) 17日のみ オランウータン
  • 千葉啓和(基生研)16日のみ オランウータン 
  • 仲里猛留(DBCLS)オランウータン
  • 山口敦子 (DBCLS) オランウータン
  • 戀津魁(理研)17日早退? オランウータン
  • 市原寿子(かずさ) オランウータン
  • 木下聖子(創価大)16日のみ チンパンジー
  • 青木信幸(創価大)16日のみ オランウータン
  • 新町大輔(創価大)16日のみ ボノボ
  • 藤田晶大(創価大)16日のみ 
  • 土屋伸一郎(創価大)16日のみ 
  • 小野浩雅 (DBCLS) 16日のみ 
  • 山田一作 (野口研) 16AM&17 ボノボ
  • 松原正陽 (野口研) 16日のみ オランウータン
  • 内藤雄樹(DBCLS)
  • 山中遼太(先端研)チンパンジー
  • 森宙史(東工大)16日のみ オランウータン
  • 高月照江(理研BRC)16日のみ
  • 鈴木治夫 (山口大) オランウータン
  • 岡別府陽子(MSS)ボノボ
  • 櫛田達矢(NBDC)オランウータン
  • 畠中秀樹(NBDC) 17日のみ 
  • 時松敏明 (DBCLS) 17日のみ ゴリラ
  • 加藤文彦 (ROIS) 16日のみ オランウータン
  • 山本泰智(DBCLS)チンパンジー
  • 信定知江(NBDC) 16日16時半まで、17日午前のみ
  • 櫻井望(かずさ)17日のみ オランウータン
  • 河野信(DBCLS)ゴリラ
  • 大田達郎 (DBCLS) チンパンジー
  • (金 進東(DBCLS)オランウータン)
  • (桝屋啓志(理研)オランウータン)

BBQ 参加登録

夏になりましたので、今回は 7/16 (木) 18:00〜21:00 に 柏の葉オークビレッジで BBQ を開催します。参加希望の方は 7/10 (金) までに記名をお願いします(7/11-12の週末に人数確定の連絡をするため)。参加費は BBQ 3200 円 + 飲み放題 1800 円 の実費となります。→ 台風のため残念ながら中止となりました。。

  • 片山
  • 川島
  • 小林 (理研)
  • 守屋
  • 永野
  • 坊農
  • 小澤
  • 上原
  • 山口
  • 戀津
  • 市原
  • 新町
  • 山田
  • 山中
  • 松原
  • 青木
  • 岡別府
  • 鈴木
  • 木下
  • 櫛田
  • 加藤
  • 山本

特徴分布

分類グラフ

/mw/SPARQLthon34」より作成