LODAC Species と南極の地域・標本マッピング
提供:TogoWiki
目次 |
メンバー
- 南 佳孝(NII)
- 松村 冬子(NII)
概要
LODAC Speciesでは生物多様性情報として,生物の学名,和名などの生物種名の関係をLOD化している.
博物館情報を収集するLODAC Museumには,科学博物館などに収集されている
生物の標本情報も保有しており,LODAC Speciesの生物種名のデータにリンクしている.
また,LODAC Speciesの中には,南極で採取された生物の標本情報も含まれており,
多様な生物種の生息範囲をGIS上に重ねて表示することで,それらの生物の研究者に新たな気づきを提供したい.
課題
標本情報リソースと所蔵機関リソースの相互リンク(南)
目的
標本情報リソースとその所蔵機関リソースについて,
所蔵機関リソースをきちんと定義して,つながるようにする.
作業内容
1.これまで、所蔵機関のデータをリテラルで入れていた部分があるので,
LODACで定義していなかったものについて,機関URIをきちんと定義する.
2.標本情報から機関URIへのリンクを生成する.
結果
1.機関URIの定義
LODAC Museumは,idとrefでデータを管理している。
http://lod.ac/id/1674506
http://lod.ac/ref/1674506
idは、その概念の代表的な物を指し、
refに、具体的な情報を登録している。
また、登録されている情報は美術館が中心で、
登録されていない博物館の情報も多かった。
そこで、これまでにLODACに追加した標本情報の所蔵機関について,
国立科学博物館のWebページ( http://science-net.kahaku.go.jp/slist.html#gbif )を元に,機関URIを定義した.
また,大学など,下位機関のある物については,
dc:hasPart,dc:isPartOfを用いてその関係を示した.
※北海道大学 ←→ 北海道大学大学院水産科学研究院 など
その他、データについては下記のとおり.
※別名がある物についてはそれも入れた.
<lod.ac/id/~~> rdf:type foaf:Organization dc:references ?lodacref rdfs:label ?博物館名 foaf:name ?博物館名 skos:prefLabel ?博物館名 dc:hasPart ?下位機関URI or dc:isPartOF ?上位機関URI <lod.ac/ref/~~> rdf:type lodac:OrganizationReference rdfs:label ?博物館名 dc:source http://science-net.kahaku.go.jp/ foaf:name ?博物館名 dc:isReferencedBy ?lodacid skos:prefLabel ?博物館名 vcard:country-name 日本 foaf:homepage ?URL vcard:locality ?県名 lodac:collection ?所蔵コレクション
2.リンクの生成
まだできてない。
おまけ:名前かぶり問題
NCBIのTaxonをLODAC Speciesに導入したことで,
Taxonの名前が,動物や植物などでかぶり,
ヒトのhasSuperTaxonにInsectaが出てくるなど,
問題になっていた.
とりあえず,NCBIでno rankとなっているものについて,
リンクを削除したデータは作ったので,
そのデータを適用して,確認する.
南極の地名リソースの生成(松村)
目的
保有している標本情報のうち,緯度・経度の情報があるのは蘚苔類のデータだけであり,
ペンギンやアザラシなどその他の生物の観測地の位置情報については,
「昭和基地周辺」など地名のテキスト情報しか持っていない.
そこで南極の地名情報を収集し,リソースとし,標本情報にひもづけることで,
南極の生物の観測状況の可視化につなげたい.
作業内容
以下の機関の南極関連データが利用可能.ライセンスはCC-BY.
- Australian Antarctic Data Centre https://data.aad.gov.au/
- Scientific Committee on Antarctic Research (AADCにホストされている?) http://www.scar.org/
その中から,南極の地名に関する以下のデータベースをRDFに変換し,利用することにした.
なお,このデータベースは毎日午前0時に更新されているとのこと.
- SCAR COMPOSITE GAZETTEER OF ANTARCTICA https://data.aad.gov.au/aadc/gaz/scar/
上記のデータをDLするには,SCARのページでアカウントを作成してログインする.
DLしたデータベースはMicrosoft Accessで作られているので,.mdb形式である.
今回は,MDBLite https://itunes.apple.com/us/app/mdblite/id487704620?ls=1&mt=12
というMacのソフトを利用して,sqliteで読めるように変換した.
データベースに入っているテーブルは,以下の4つ.
今回は,Gazetteer テーブルをcsvに変換し,地名リソースを生成することにした.
- Country(国)
- Feature_Type(場所等の種類)
- Gazetteer(地名およびその詳細)
- admin(データベース管理用)
なお,LODACでは,各エンティティに対して複数のデータ源からデータが得られる場合,
まず,データ源ごとにそこから得られた情報のみで参照用のRefリソースを作る.
次に,複数のデータ源のRefリソースを統合し,他のリソースとのリンクなどを記述することで,
エンティティ自体を統合的に表すIDリソースを作る.
そのため,ここではまず南極地名のRefリソースを作る.
プロパティには以下の表に含まれる語彙を使用した
SCAR特有のプロパティが多いため,
1行目に示したscarという語彙を独自に定義し,
すべてのフィールドに対応するプロパティを作成して割り当てた.
一方で,2行目以降のデファクトスタンダードの語彙も重複して割り当てた.
南極地名のリソースのタイプは以下のとおりである.
リソースの種類 | rdf:type |
---|---|
IDリソース | scar:SCARGazetteer |
Refリソース | geo:SpatialThing, scar:SCARGazetteerReference |
LODACの方針として,データ源が含むすべてのデータを保全した状態でRDFに変換するため,
以下のようにGazetteerテーブルの全てのフィールドにプロパティを割り当て,
Refリソースのスキーマを設計した.
また,フィールドには含まれていない,データベースのメタ情報である
データ源の作成者,URI,ライセンス,参照元となるIDリソースへのリンクについても,
表の上部に示すように,プロパティを用意した.
フィールド | プロパティ | 内容 |
---|---|---|
- | rdf:type | - |
- | dc:isReferencedBy | LODAC内の参照元IDリソースへのリンク |
- | dc11:creator | データ作成者 |
- | dc:source | データ源 |
- | cc:license | ライセンス |
gaz_Id | dc:identifier, scar:GazId | SCAR Composite Gazetteerにおける 地名データのユニークなID |
Place_Name | rdfs:label, foaf:name, skos:prefLabel, dc:title, scar:PlaceName | 地名 |
Reason | scar:Reason | ? |
English_Place_Name | skos:altLabel, scar:EnglishPlaceName | 地名(英語) |
Latitude | geo:lat, scar:Latitude | 緯度 |
Longitude | geo:long, scar:Longitude | 経度 |
Altitude | geo:alt, scar:Altitude | 標高 |
Feature_Type_Code | scar:FeatureTypeCode | SCAR Feature Type(特徴を表す単語)のID |
Narrative | dc:description, scar:Narrative | 地名の説明 |
Named_For | scar:namedFor | 地名の由来 |
Meeting_Date | scar:MeetingDate | ? |
Meeting_Paper | scar:MeetingPaper | ? |
Date_Named | dc:created, scar:DateNamed | 地名が付けられた日 |
Gazetteer | scar:Gazetteer | 地名やその由来などの情報に関する責任者 (国もしくは管理者) |
Country_ID | scar:CountryID | 国のID |
SCAR_Feature_Class | scar:SCARFeatureClass | 場所の特徴クラス (Feature Typeにマッピングされる予定) |
SCAR_Common_ID | scar:SCARCommonID | ? |
Region_ID | scar:RegionID | ? |
Is_Complete_Flag | scar:isCompleteFlag | ? |
View_By_Public_Flag | scar:viewByPublicFlag | ? |
Display_Scales | scar:DisplayScales | ? |
Remote_Sensor_Info | scar:RemoteSensorInfo | ? |
Is_Proposed | scar:isProposed | ? |
Is_Deleted | scar:isDeleted | ? |
Coordinate_Accuracy | scar:CoordinateAccuracy | 座標の計測精度 |
Altitude_Accuracy | scar:AltitudeAccuracy | 標高の計測精度 |
Source_Institution | scar:SourceInstitution | 座標のデータ源(座標を取得した地図や 航空写真)を所有する機関 |
Source_Person | scar:SourcePerson | 座標のデータ源を所有する人物 |
Accepted_By | scar:acceptedBy | ? |
Verified_By | scar:verifiedBy | ? |
Source_Country_Code | scar:SourceCountryCode | 座標のデータ源を所有する国 |
Source_Name | scar:SourceName | 座標のデータ源の名前 |
Source_Scale | scar:SourceScale | 座標取得時の縮尺 |
SCAR_Map_Cat_ID | scar:SCARMapCatID | 座標のデータ源のSCAR map catalogue内でのID |
Comments | scar:Comments | 座標やその他の情報の変更などについてのコメント |
Source_Publisher | scar:SourcePublisher | 座標のデータ源の発行者 |
Status | scar:Status | 地名が正しくない場合の地名のステータス (国(オーストラリア?)の地名辞典の標準から外れる, 地名の対象となる地理的特徴が消滅する,など) |
Status_Notes | scar:StatusNotes | ? |
Source_Type | scar:SourceType | 座標のデータ源の種類 (航空写真,GPS測位システムなど) |
Changed | scar:Changed | ? |
New | scar:New | ? |
Source_Identifier | scar:SourceIdentifier | 座標のデータ源の国(オーストラリア?)の カタログにおけるユニークなID |
なお,IDリソースのスキーマは以下のとおりである.
フィールド | プロパティ | 内容 |
---|---|---|
- | rdf:type | - |
- | dc:references | LODAC内の参照先Refリソースへのリンク |
Place_Name | rdfs:label, foaf:name, skos:prefLabel | 地名 |
English_Place_Name | skos:altLabel | 地名(英語) |
LODAC側でこれらのIDリソース,RefリソースにURIを生成し,ttlファイルとしてRDFを生成した.
なお,変換作業やスキーマの作成作業はGoogle Refine, Rubyを用いて行った.
結果
LODACに生成した南極地名リソースのRDFを追加した.
http://lod.ac/sparql にて以下のようなSPARQLで,南極の地名の情報が取得できる.
このSPARQLの結果はこんな感じです.
PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#> PREFIX dc: <http://purl.org/dc/terms/> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX scar: <http://lod.ac/ns/scar#> SELECT ?id ?label ?lat ?long ?country WHERE { ?id a scar:SCARGazetteer; rdfs:label ?label. ?id dc:references ?ref. ?ref geo:lat ?lat; geo:long ?long; scar:Gazetteer ?country. } LIMIT 100
今後の課題
- 南極の標本のリソースは座標を持っていないが,地名を位置情報として持っている場合があるので
それらの地名と,今回生成した南極地名リソースのラベルのマッチングを行い,
標本と地名のリンクの生成を行う - 国やSCAR Feature Typeのリソースの生成を行い,南極地名リソースとリンクする
おまけ:Australian Antarctic Data CentreのGISデータのGoogle Earthでの表示
目的
魅力的なデータがあるのだが,Shapefileなので,KMLに変換してGoogle Earthで見てみたい
作業内容
Shapefileをkmlに変換するソフトがWindowsにしかないので,
南さんにお願いしてkmlに変換してもらった.
ちなみに魅力的なデータとは「犬ぞりの走行軌跡(?)」.
Google Earthで犬が1960年台に走っていた軌跡を見ることができて満足した.