DatasetCitation
提供:TogoWiki
目次 |
データセットのRDFによる公開を促進するための方策
現状では研究データは独自の DB 化もしくは論文のサプリメントデータとして公開されることが多い。 研究者がデータセットをこれまでのように DB 化して公開するのはそれなりにコストがかかる。 しかし DB 化してデータを持っておくことで評価される価値体系のままでは囲い込みにインセンティブが働く。
データを公開しても同じようにサイエンティフィックな貢献としての評価を与える仕組みを考える必要がある。 これには、データがどれくらい利用されているかをトレースし IF のように評価できる基準を導入するとよいかもしれない。
塩基配列 DB や立体構造の場合
歴史的に INSDC や PDB へのデータ登録は研究コミュニティとジャーナルのルール化により義務付けられてきた。 研究者にとってはメンドクサイが今のところワークしているスキーム。 他の種類のデータについてもハイスループットなものに関してはドメインごとにレポジトリが整備されている状況。
その他のデータの場合
では、全ての生命科学のデータが適切にデータベース化・集積されているかどうか?
- 表形式のデータ → TogoDB のようなサービス
- 木構造のデータ → JSON など?
- すべてのデータ → 結局 RDF で?
論文のサプリメントにするようなデータは、データそのものを正規化した形で公開されることで再利用が進むと期待される。 しかし、ユーザに RDF を作らせるのはなかなか難しいはず。 このため、TogoDB のようなサービスを拡充し、表構造・木構造・グラフ構造など様々なデータを CSV, JSON などでサブミットし、 適切なメタデータをつけることで RDF 化されるとともに DB としてホスティング・公開されるような仕組みがあると良さそう。
トレーサビリティ
公開したデータがどのように利活用されているかを客観的に評価するために、利用の際に適切に引用できるような仕組みがあるとよい。 これには RDF データが向いており、データ自体に固有の ID を振ることで引用する際にリファレンスできるようにする(記述方法は要検討)。
まずは、NBDC RDF ポータルや EBI RDF Platform など RDF のデータセットを公開する場合にデータセット自体に DOI (もしくは引用可能な何らかのID) を付与する取り決めを行う。 DOI の場合は、ポータルサイトのデータセットのページにリゾルブされ、そこからオリジナルなデータベースのサイトがあればそちらにも辿れるようにする。
データセットの利用者は、研究やサービスでデータセットを利用する際に DOI を引用し、論文化の際にも DOI の引用を (できれば研究費やジャーナルのルールで) 義務付ける。 これらの引用情報を機械的に収集し、もともとのデータがどのような研究やサービスや2次・3次データベースなどで利活用されているかをトレースする。 利活用の度合いをインパクトファクターのような指標として公開し、コミュニティが研究の評価としてデータの有用性も重視することができるようにする。
データ系のジャーナル
Nature Scientific Data など、データセットに対するオープンアクセスかつピアレビューされたジャーナルも出てきている。
サイエンスデータへの DOI 付与
DataCite では英国図書館を中心に研究データに DOI を付与するサービスを提供している。
DOI 管理
Japan Link Center が国内では DOI 登録機関として認定されている。
NBDC における DOI 付与
2016/1/20 NBDC (櫛田・八塚) さんとミーティング (片山・川島・畠中)
- ランディングページの URL が決まっている必要がある
- DOI が発行されたあと、ランディングページを変更することは可能 (DOI は不変)
- DOI の suffix は登録者が決められる
- バージョンは研究データについてはルールが緩やかで、バージョン番号をつけてもいいし、変更点を明示しつつ同じ DOI を引き続き使っても良い
- 必要な情報は NBDC RDF ポータル用のメタデータの情報で十分で、XML を生成して NBDC で投稿すると DOI が発行される
- 全く同じデータについては同じ DOI を付けるべき
- DBアーカイブでは、英語版・日本語版にはそれぞれ別の、オリジナルのデータについては各自別途 DOI を振っても良い(アーカイブに入る時点で形式が変わっているため)
- DBアーカイブの DOI 付与では Data Cite, Cross Ref, JALC で比較検討して JALC に決定したとのこと
- NBDC RDF ポータルに入る際にメタデータがついているといった違いがある場合も変えても良い
- DBアーカイブでは、英語版・日本語版にはそれぞれ別の、オリジナルのデータについては各自別途 DOI を振っても良い(アーカイブに入る時点で形式が変わっているため)
→ DOI はデータを管理したい単位で振って良いので、NBDC RDF ポータル独自にアサインすることに。バージョン管理は DOI のレベルではしない。変更履歴(せめて変更日)は記録を残す必要がある。
- ランディングページ (NBDC RDF ポータルの各データセットのページ)に DOI を表示する
- ランディングページ内の一番下に(日付だけでも) ChangeLog をつけるように改定
- DOI のプレフィックスは NBDC の ID を現在申請中(DBCLS 場合は ID 10.7875)
- DOI のサフィックスは http://integbio.jp/rdf/?view=detail&id=wurcs なら wurcs のようにもできるし、連番を振ってもいい → 連番(シリアル番号)にしよう
- DOI のサフィックスのプレフィックスは rdf でどうか。TogoTV の場合 DOI: 10.7875/togotv.2012.071 などとなるので、ここでは DOI: <NBDCのプレフィックスID>/rdf.<シリアル番号>
TODO: NBDC RDF ポータルをメタデータのキーワード等で検索する機能は欲しいかも