LODAC Species と南極の地域・標本マッピング

提供:TogoWiki

移動: 案内, 検索

目次

メンバー

  • 南 佳孝(NII)
  • 松村 冬子(NII)


概要

LODAC Speciesでは生物多様性情報として,生物の学名,和名などの生物種名の関係をLOD化している.
博物館情報を収集するLODAC Museumには,科学博物館などに収集されている
生物の標本情報も保有しており,LODAC Speciesの生物種名のデータにリンクしている.

また,LODAC Speciesの中には,南極で採取された生物の標本情報も含まれており,
多様な生物種の生息範囲をGIS上に重ねて表示することで,それらの生物の研究者に新たな気づきを提供したい.


課題

標本情報リソースと所蔵機関リソースの相互リンク(南)

目的

標本情報リソースとその所蔵機関リソースについて,
所蔵機関リソースをきちんと定義して,つながるようにする.

作業内容

1.これまで、所蔵機関のデータをリテラルで入れていた部分があるので,
LODACで定義していなかったものについて,機関URIをきちんと定義する.

2.標本情報から機関URIへのリンクを生成する.

結果

1.機関URIの定義

LODAC Museumは,idとrefでデータを管理している。
http://lod.ac/id/1674506
http://lod.ac/ref/1674506

idは、その概念の代表的な物を指し、
refに、具体的な情報を登録している。

また、登録されている情報は美術館が中心で、
登録されていない博物館の情報も多かった。

そこで、これまでにLODACに追加した標本情報の所蔵機関について,
国立科学博物館のWebページ( http://science-net.kahaku.go.jp/slist.html#gbif )を元に,機関URIを定義した.

また,大学など,下位機関のある物については,
dc:hasPart,dc:isPartOfを用いてその関係を示した.
※北海道大学 ←→ 北海道大学大学院水産科学研究院 など

その他、データについては下記のとおり.
※別名がある物についてはそれも入れた.

<lod.ac/id/~~>
rdf:type	foaf:Organization
dc:references	?lodacref
rdfs:label	?博物館名
foaf:name	?博物館名
skos:prefLabel	?博物館名
dc:hasPart	?下位機関URI or dc:isPartOF	?上位機関URI


<lod.ac/ref/~~>
rdf:type	lodac:OrganizationReference
rdfs:label	?博物館名
dc:source	http://science-net.kahaku.go.jp/
foaf:name	?博物館名
dc:isReferencedBy	?lodacid
skos:prefLabel	?博物館名
vcard:country-name	日本
foaf:homepage	?URL
vcard:locality	?県名
lodac:collection	?所蔵コレクション


2.リンクの生成

まだできてない。

おまけ:名前かぶり問題

NCBIのTaxonをLODAC Speciesに導入したことで,
Taxonの名前が,動物や植物などでかぶり,
ヒトのhasSuperTaxonにInsectaが出てくるなど,
問題になっていた.

とりあえず,NCBIでno rankとなっているものについて,
リンクを削除したデータは作ったので,
そのデータを適用して,確認する.

南極の地名リソースの生成(松村)

目的

保有している標本情報のうち,緯度・経度の情報があるのは蘚苔類のデータだけであり,
ペンギンやアザラシなどその他の生物の観測地の位置情報については,
「昭和基地周辺」など地名のテキスト情報しか持っていない.
そこで南極の地名情報を収集し,リソースとし,標本情報にひもづけることで,
南極の生物の観測状況の可視化につなげたい.

作業内容

以下の機関の南極関連データが利用可能.ライセンスはCC-BY.


その中から,南極の地名に関する以下のデータベースをRDFに変換し,利用することにした.
なお,このデータベースは毎日午前0時に更新されているとのこと.


上記のデータをDLするには,SCARのページでアカウントを作成してログインする.
DLしたデータベースはMicrosoft Accessで作られているので,.mdb形式である.
今回は,MDBLite https://itunes.apple.com/us/app/mdblite/id487704620?ls=1&mt=12
というMacのソフトを利用して,sqliteで読めるように変換した.


データベースに入っているテーブルは,以下の4つ.
今回は,Gazetteer テーブルをcsvに変換し,地名リソースを生成することにした.

  • Country(国)
  • Feature_Type(場所等の種類)
  • Gazetteer(地名およびその詳細)
  • admin(データベース管理用)


なお,LODACでは,各エンティティに対して複数のデータ源からデータが得られる場合,
まず,データ源ごとにそこから得られた情報のみで参照用のRefリソースを作る.
次に,複数のデータ源のRefリソースを統合し,他のリソースとのリンクなどを記述することで,
エンティティ自体を統合的に表すIDリソースを作る.
そのため,ここではまず南極地名のRefリソースを作る.


プロパティには以下の表に含まれる語彙を使用した
SCAR特有のプロパティが多いため,
1行目に示したscarという語彙を独自に定義し,
すべてのフィールドに対応するプロパティを作成して割り当てた.
一方で,2行目以降のデファクトスタンダードの語彙も重複して割り当てた.


Prefix URI
scar http://lod.ac/ns/scar#
dc http://purl.org/dc/terms/
rdfs http://www.w3.org/2000/01/rdf-schema#
geo http://www.w3.org/2003/01/geo/wgs84_pos#
foaf http://xmlns.com/foaf/0.1/
dc11 http://purl.org/dc/elements/1.1/
xsd http://www.w3.org/2001/XMLSchema#
owl http://www.w3.org/2002/07/owl#
rdf http://www.w3.org/1999/02/22-rdf-syntax-ns#
skos http://www.w3.org/2004/02/skos/core#
cc http://creativecommons.org/ns#


南極地名のリソースのタイプは以下のとおりである.

リソースの種類 rdf:type
IDリソース scar:SCARGazetteer
Refリソース geo:SpatialThing, scar:SCARGazetteerReference


LODACの方針として,データ源が含むすべてのデータを保全した状態でRDFに変換するため,
以下のようにGazetteerテーブルの全てのフィールドにプロパティを割り当て, Refリソースのスキーマを設計した.
また,フィールドには含まれていない,データベースのメタ情報である
データ源の作成者,URI,ライセンス,参照元となるIDリソースへのリンクについても,
表の上部に示すように,プロパティを用意した.


フィールド プロパティ 内容
- rdf:type -
- dc:isReferencedBy LODAC内の参照元IDリソースへのリンク
- dc11:creator データ作成者
- dc:source データ源
- cc:license ライセンス
gaz_Id dc:identifier, scar:GazId SCAR Composite Gazetteerにおける
地名データのユニークなID
Place_Name rdfs:label, foaf:name, skos:prefLabel,
dc:title, scar:PlaceName
地名
Reason scar:Reason
English_Place_Name skos:altLabel, scar:EnglishPlaceName 地名(英語)
Latitude geo:lat, scar:Latitude 緯度
Longitude geo:long, scar:Longitude 経度
Altitude geo:alt, scar:Altitude 標高
Feature_Type_Code scar:FeatureTypeCode SCAR Feature Type(特徴を表す単語)のID
Narrative dc:description, scar:Narrative 地名の説明
Named_For scar:namedFor 地名の由来
Meeting_Date scar:MeetingDate
Meeting_Paper scar:MeetingPaper
Date_Named dc:created, scar:DateNamed 地名が付けられた日
Gazetteer scar:Gazetteer 地名やその由来などの情報に関する責任者
(国もしくは管理者)
Country_ID scar:CountryID 国のID
SCAR_Feature_Class scar:SCARFeatureClass 場所の特徴クラス
(Feature Typeにマッピングされる予定)
SCAR_Common_ID scar:SCARCommonID
Region_ID scar:RegionID
Is_Complete_Flag scar:isCompleteFlag
View_By_Public_Flag scar:viewByPublicFlag
Display_Scales scar:DisplayScales
Remote_Sensor_Info scar:RemoteSensorInfo
Is_Proposed scar:isProposed
Is_Deleted scar:isDeleted
Coordinate_Accuracy scar:CoordinateAccuracy 座標の計測精度
Altitude_Accuracy scar:AltitudeAccuracy 標高の計測精度
Source_Institution scar:SourceInstitution 座標のデータ源(座標を取得した地図や
航空写真)を所有する機関
Source_Person scar:SourcePerson 座標のデータ源を所有する人物
Accepted_By scar:acceptedBy
Verified_By scar:verifiedBy
Source_Country_Code scar:SourceCountryCode 座標のデータ源を所有する国
Source_Name scar:SourceName 座標のデータ源の名前
Source_Scale scar:SourceScale 座標取得時の縮尺
SCAR_Map_Cat_ID scar:SCARMapCatID 座標のデータ源のSCAR map catalogue内でのID
Comments scar:Comments 座標やその他の情報の変更などについてのコメント
Source_Publisher scar:SourcePublisher 座標のデータ源の発行者
Status scar:Status 地名が正しくない場合の地名のステータス
(国(オーストラリア?)の地名辞典の標準から外れる,
地名の対象となる地理的特徴が消滅する,など)
Status_Notes scar:StatusNotes
Source_Type scar:SourceType 座標のデータ源の種類
(航空写真,GPS測位システムなど)
Changed scar:Changed
New scar:New
Source_Identifier scar:SourceIdentifier 座標のデータ源の国(オーストラリア?)の
カタログにおけるユニークなID


なお,IDリソースのスキーマは以下のとおりである.


フィールド プロパティ 内容
- rdf:type -
- dc:references LODAC内の参照先Refリソースへのリンク
Place_Name rdfs:label, foaf:name, skos:prefLabel 地名
English_Place_Name skos:altLabel 地名(英語)


LODAC側でこれらのIDリソース,RefリソースにURIを生成し,ttlファイルとしてRDFを生成した.
なお,変換作業やスキーマの作成作業はGoogle Refine, Rubyを用いて行った.


結果

LODACに生成した南極地名リソースのRDFを追加した.
http://lod.ac/sparql にて以下のようなSPARQLで,南極の地名の情報が取得できる.
このSPARQLの結果はこんな感じです.

PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#>
PREFIX dc: <http://purl.org/dc/terms/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX scar: <http://lod.ac/ns/scar#>

SELECT ?id ?label ?lat ?long ?country
WHERE {
  ?id a scar:SCARGazetteer;
  rdfs:label ?label.
  ?id dc:references ?ref.
  ?ref geo:lat ?lat;
  geo:long ?long;
  scar:Gazetteer ?country.
}
LIMIT 100
今後の課題
  • 南極の標本のリソースは座標を持っていないが,地名を位置情報として持っている場合があるので
    それらの地名と,今回生成した南極地名リソースのラベルのマッチングを行い,
    標本と地名のリンクの生成を行う
  • 国やSCAR Feature Typeのリソースの生成を行い,南極地名リソースとリンクする


おまけ:Australian Antarctic Data CentreのGISデータのGoogle Earthでの表示

目的

魅力的なデータがあるのだが,Shapefileなので,KMLに変換してGoogle Earthで見てみたい

作業内容

Shapefileをkmlに変換するソフトがWindowsにしかないので,
南さんにお願いしてkmlに変換してもらった.
ちなみに魅力的なデータとは「犬ぞりの走行軌跡(?)」.
Google Earthで犬が1960年台に走っていた軌跡を見ることができて満足した.