BH15.15/TrialofDevelopmentOfValueOntology

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
 
(間の62版分が非表示)
1行: 1行:
-
値(定性値、定量値)記述のためのオントロジーを考えてみる(桝屋)
+
== 目的 ==
 +
*値(定性値、定量値)のRDF記述のガイドラインを作ることを目指して、検討を行う。これができれば、計測値、表現型アノテーション等、科学データ記述の汎用的な枠組みができる。
 +
**参考:RDFガイドライン:単位つき数値の書き方(http://wiki.lifesciencedb.jp/mw/RDFizingDatabaseGuideline#.E5.8D.98.E4.BD.8D.E3.81.AE.E3.81.A4.E3.81.84.E3.81.9F.E5.80.A4.E3.81.AE.E8.A8.98.E8.BF.B0.E6.96.B9.E6.B3.95    )
-
*概要
+
== メンバー ==
-
以前Sparqlthonで検討した「単位つき数値」を膨らませて、定量値、定性値の書き方まで、一般的に広くカバーするオントロジーを作れるか考察する。できれば実際にオントロジーを試作する。
+
桝屋、川島、古崎(参加者募集中!)
-
*ニーズ
+
== 『値』=尺度水準とは? ==
-
**染色体の長さ、物理位置(数値はゲノムバージョンに依存)
+
*https://ja.wikipedia.org/wiki/尺度水準
-
**実験結果の記述とか
+
* 数学的に「性質」を扱うための重要な科学の基盤。
-
**「量」の記述全般
+
* 尺度水準を区別できれば、データの統計処理をどう扱うかの指標になる。
-
*既存の仕事/研究
+
== スキーマ原案(桝屋)==
-
**基本的に「性質」の記述の範疇に入ると思われる
+
[[ファイル:Schemavalueont1.jpg]]
 +
 
 +
あるアッセンブルでの染色体の長さの例:データとして記述する。
 +
 
 +
[[ファイル:Schemavalueont4.jpg]]
 +
 
 +
 
 +
== オントロジー試作 (桝屋)==
 +
[[ファイル:Schemavalueont2.png]]
 +
*https://filebin.riken.jp/public/qM2wQAPffwvA1M0BZUBTvF190F-SQY9bdSmE1Vl5SfCi  (一時的)
 +
** とりあえずオレオレのクラスとプロパティのrange, domainで作ったもの
 +
 
 +
 
 +
==今回の主な論点:値の違い(分類)をクラスで示すか、プロパティで示すか ==
 +
* 合意点:どちらかは行うべき。
 +
** クラスで示す場合:上記尺度水準の分類のクラス(およびサブクラス)のどれかに分類すべき
 +
** プロパティで示す場合::上記尺度水準の分類のプロパティ(およびサブプロパティ)のどれかに分類すべき
 +
** どちらもしないのは最悪。
 +
 
 +
 
 +
* 今後の課題
 +
** クラス、プロパティ分類の利点、不利な点を調査する(データ記述の際、検索パフォーマンス等への影響など)
 +
** クラス、プロパティ両ツリーの分担(例:クラスは尺度分類、プロパティは、性質の分類、等)
 +
 
 +
 
 +
== その他実際的な問題点 ==
 +
*実際的な部分:
 +
***個々のUnitは本来インスタンスなのに、Unit Ontologyの最下層がクラスになってる<=太田さんがUOに対してIssueを上げてくれました。
 +
***UOにない単位が結構沢山ある。追加してほしい
 +
***いざとなったら日本で作る?
 +
****その際には1000m => 1kmの変換ができるような仕組みを盛り込めないか
 +
***exterm:unitsはプロパティが決まっていないという意味なので、きちんと決めたほうがいい。その他プロパティも。
 +
 
 +
 
 +
= 参考:オントロジー的な検討 (桝屋)=
 +
== 既存の仕事/研究==
 +
*基本的に「性質」の記述の範疇に入ると思われる
**OBI: BFOに準拠。最近BFO2.0で値の記述に対応したかもしれない。
**OBI: BFOに準拠。最近BFO2.0で値の記述に対応したかもしれない。
-
**YAMATO(http://download.hozo.jp/onto_library/upperOnto.htm )
+
***OBI, BFO2がbioportalで見れない(2016.3.16)
 +
***bfo:qualityの下に性質、定性値、bfo:informational content entityの下に測定値等があるように見える。
 +
*YAMATO(http://download.hozo.jp/onto_library/upperOnto.htm )
***性質と値を分離(DOLCEと同じ)かつ、性質と値を含んだ「特性」を定義
***性質と値を分離(DOLCEと同じ)かつ、性質と値を含んだ「特性」を定義
***Mizoguchi 2010 (http://download.hozo.jp/onto_library/YAMATO101216.pdf ) にて、様々な性質関連概念をまとめてある
***Mizoguchi 2010 (http://download.hozo.jp/onto_library/YAMATO101216.pdf ) にて、様々な性質関連概念をまとめてある
-
**SIO(https://code.google.com/archive/p/semanticscience/wikis/SIO.wiki)
+
*SIO(https://code.google.com/archive/p/semanticscience/wikis/SIO.wiki)
***qualityの下位に定性値、numberの下位にmeasurement valueがある。
***qualityの下位に定性値、numberの下位にmeasurement valueがある。
-
**RDFガイドライン:単位つき数値の書き方(http://wiki.lifesciencedb.jp/mw/RDFizingDatabaseGuideline#.E5.8D.98.E4.BD.8D.E3.81.AE.E3.81.A4.E3.81.84.E3.81.9F.E5.80.A4.E3.81.AE.E8.A8.98.E8.BF.B0.E6.96.B9.E6.B3.95    )
 
-
*コンセプト
+
 
-
**RDFガイドラインの数値記述の項を包含する数値/値記述のオントロジーとする
+
 
-
**数値/値の分類に、定量値/定性値、および、尺度水準(https://www.google.com/search?client=safari&rls=en&q=%E5%B0%BA%E5%BA%A6%E6%B0%B4%E6%BA%96&ie=UTF-8&oe=UTF-8 )を入れ込む。つまり、数学・統計学的に、数値や値を扱う一般的オントロジーとする
+
***各概念についてのオントロジー的な説明
-
***性質のインスタンスと、値を分離する
+
***'''GenericQuality''': モノが持つ性質。生物で言えば「形質」YAMATO:generic qualityそのもの。 bfo:Quality、PATO:Qualityともほぼ同義。(なので、名前はQualityで良かったかも。Valueは入らないよという意味でこの名前)インスタンスは、「マウスAの持つ体長」Qualityのクラス階層は、<重さor長さ>、<体長 or 胴囲>等の区別を受け持つ。ただし、1匹のマウスが成長した場合、10cmも12cmも「マウスAの持つ体長」インスタンスであるため、値が変化したことが記述できない(Mizoguchi 2010)。
-
***値と性質のリンクも考える
+
***'''QualityValue''': 値、量。性質の「大きさ」的なものを示す概念。科学における性質記述に必須。具体的な値("10cm"など)はインスタンス。1mと100cmはsameAsと考えたい(文字列表現ではない)。SameAsの判定は、数と単位とで判定する。値がdependent entity(性質的なもの)なのか、情報モデル的なものなのかは個人的にはよくわからないが、マイナスとか虚数とか、現実世界にマッピングしにくい値も扱えるよう、「数学的モデル」と考えたほうがいいのかもしれない。(YAMATO, DOLCEではdependent entityとなっている)
-
***概念階層はこんな感じ(ラフ)
+
****QuantitativeValue: 定量値:数と単位で構成される。Countなど、単位の無い定量値もある。
-
[[ファイル:Schemavalueont2.png]]
+
-
***概念間のリンクはこんな感じ
+
-
[[ファイル:Schemavalueont1.jpg]]
+
-
***各概念について
+
-
***'''Quality''': モノが持つ性質。生物で言えば「形質」。bfo:Quality及びPATOQualityと同義。インスタンスは、「マウスAの持つ体長」Qualityのクラス階層は、<重さor長さ>、<体長 or 胴囲>等の区別を受け持つ。ただし、1匹のマウスが成長した場合、10cmも12cmも「マウスAの持つ体長」インスタンスであるため、値が変化したことが記述できない(Mizoguchi 2010)。
+
-
***'''Value''': 値、量。性質の「大きさ」的なものを示す概念。科学における性質記述に必須。具体的な値("10cm"など)はインスタンス。1mと100cmはsameAsと考えたい(文字列表現ではない)。SameAsの判定は、数と単位とで判定する。値がdependent entity(性質的なもの)なのか、情報モデル的なものなのかは個人的にはよくわからないが、マイナスとか虚数とか、現実世界にマッピングしにくい値も扱えるよう、「数学的モデル」と考えたほうがいいのかもしれない。(YAMATO, DOLCEではdependent entityとなっている)
+
-
****定量値:数と単位で構成される。Countなど、単位の無い定量値もある。
+
*****Rational scale 四則演算が可能。普通の定量値
*****Rational scale 四則演算が可能。普通の定量値
*****Nominal scale 加減演算のみ意味がある。セルシウス度の温度など、特殊な定量値。
*****Nominal scale 加減演算のみ意味がある。セルシウス度の温度など、特殊な定量値。
-
****定性値:通常テキストで表現される。
+
****QualitativeValue定性値:通常テキストで表現される。
*****Ordinal scale value 順番のみで定量性が無い
*****Ordinal scale value 順番のみで定量性が無い
*****Nominal scale 順番さえない
*****Nominal scale 順番さえない
****上記の分類の他に、順序あり/なし、間隔が定量的/定性的、四則演算可能/加減のみ可能という分類もできる(こちらが本質的かもしれない)が、統計計算においては、NominalとOrdinalの扱いがほとんど同じらしいので上記分類とした。
****上記の分類の他に、順序あり/なし、間隔が定量的/定性的、四則演算可能/加減のみ可能という分類もできる(こちらが本質的かもしれない)が、統計計算においては、NominalとOrdinalの扱いがほとんど同じらしいので上記分類とした。
-
***'''Unit''': 根本的意味は「単位量」で値の一種と考えられる。
+
***'''Unit''': 単位。根本的意味は「単位量」で値の一種と考えられる。
 +
***Continuant:(性質を持っている)モノ。      (bfo:continuant, sio:object, yamato:continuant)
 +
***SingletonEAV_styledData: 計測値などのデータとして例2のために作ったクラス。
-
*染色体の長さ(バージョン依存)をどのように記述するか
 
-
**「真の染色体の長さ」は1つと考える。バージョン依存の位置が変わっても不変。(図の空白ノードB)
 
-
**その「真の染色体の長さ」に対して、Sequence version xxx 依存の値の体系:Mbp value depend on version xxx が存在すると考える。
 
-
**問題点1:真実の記述になっている。と思う。計測データであることを明示するには、下の方がいいかもしれない。
 
-
**問題点2: 数値と単位だけではSameAs判定できないことになってしまう・・・
 
-
[[ファイル:Schemavalueont3.jpg]]
 
-
*染色体の長さ(バージョン依存)の書き方その2
 
-
**測定結果というInformational entity: Measurement result xxx of chromosome Aを記述する。下記の例は、Entity, Attribute, Value型の記述(桝屋プロジェクトでの標準の書き方)したもの
 
-
**EAV記述では、性質のインスタンスは記述してもあまり意味がないので、クラスへのリンクとしている(本来OWL2のPunning機能を使う)
 
-
**測定結果にバージョンへの依存性をかけるので、値のレベルでのバージョン依存性を書く必要があまりない気がする。
 
-
[[ファイル:Schemavalueont4.jpg]]
 
-
*課題/問題点など
+
== その他課題/問題点など ==
-
**ちゃんとしたオントロジーを作る=>YAMATOのシンプル版?
+
*哲学的な部分
-
**個々のUnitは本来インスタンスなのに、Unit Ontologyの最下層がクラス<=太田さんがUOに対してIssueを上げてくれました。
+
***セルシウス温度とケルビン温度、SameAsで結びたいが、両者の尺度は異なる。尺度を跨いだ単位変換ではSameAsしない等、何らかの制限が必要。
-
**UOにない単位が結構沢山ある。
+
***数学の勉強が必要。
-
**exterm:unitsはプロパティが決まっていないという意味なので、きちんと決めたほうがいい。
+
*その他
-
**順序尺度(Ordinal scale value )間の相互運用性を、ロール概念を駆使して記述可能(Masuya et. al. 2011: http://slidegur.com/doc/5749103/presentation )
+
***順序尺度(Ordinal scale value )間の相互運用性を、ロール概念を駆使して記述可能(Masuya et. al. 2011: http://slidegur.com/doc/5749103/presentation )
-
**セルシウス温度とケルビン温度、SameAsで結びたいが、両者の尺度は異なる。尺度を跨いだ単位変換ではSameAsしない等、何らかの制限が必要。
+
-
**数学の勉強が必要。
+

2016年3月16日 (水) 18:34時点における最新版

目次

目的


メンバー

桝屋、川島、古崎(参加者募集中!)


『値』=尺度水準とは?

  • https://ja.wikipedia.org/wiki/尺度水準
  • 数学的に「性質」を扱うための重要な科学の基盤。
  • 尺度水準を区別できれば、データの統計処理をどう扱うかの指標になる。


スキーマ原案(桝屋)

Schemavalueont1.jpg

あるアッセンブルでの染色体の長さの例:データとして記述する。

Schemavalueont4.jpg


オントロジー試作 (桝屋)

Schemavalueont2.png


今回の主な論点:値の違い(分類)をクラスで示すか、プロパティで示すか

  • 合意点:どちらかは行うべき。
    • クラスで示す場合:上記尺度水準の分類のクラス(およびサブクラス)のどれかに分類すべき
    • プロパティで示す場合::上記尺度水準の分類のプロパティ(およびサブプロパティ)のどれかに分類すべき
    • どちらもしないのは最悪。


  • 今後の課題
    • クラス、プロパティ分類の利点、不利な点を調査する(データ記述の際、検索パフォーマンス等への影響など)
    • クラス、プロパティ両ツリーの分担(例:クラスは尺度分類、プロパティは、性質の分類、等)


その他実際的な問題点

  • 実際的な部分:
      • 個々のUnitは本来インスタンスなのに、Unit Ontologyの最下層がクラスになってる<=太田さんがUOに対してIssueを上げてくれました。
      • UOにない単位が結構沢山ある。追加してほしい
      • いざとなったら日本で作る?
        • その際には1000m => 1kmの変換ができるような仕組みを盛り込めないか
      • exterm:unitsはプロパティが決まっていないという意味なので、きちんと決めたほうがいい。その他プロパティも。


参考:オントロジー的な検討 (桝屋)

既存の仕事/研究


      • 各概念についてのオントロジー的な説明
      • GenericQuality: モノが持つ性質。生物で言えば「形質」YAMATO:generic qualityそのもの。 bfo:Quality、PATO:Qualityともほぼ同義。(なので、名前はQualityで良かったかも。Valueは入らないよという意味でこの名前)インスタンスは、「マウスAの持つ体長」Qualityのクラス階層は、<重さor長さ>、<体長 or 胴囲>等の区別を受け持つ。ただし、1匹のマウスが成長した場合、10cmも12cmも「マウスAの持つ体長」インスタンスであるため、値が変化したことが記述できない(Mizoguchi 2010)。
      • QualityValue: 値、量。性質の「大きさ」的なものを示す概念。科学における性質記述に必須。具体的な値("10cm"など)はインスタンス。1mと100cmはsameAsと考えたい(文字列表現ではない)。SameAsの判定は、数と単位とで判定する。値がdependent entity(性質的なもの)なのか、情報モデル的なものなのかは個人的にはよくわからないが、マイナスとか虚数とか、現実世界にマッピングしにくい値も扱えるよう、「数学的モデル」と考えたほうがいいのかもしれない。(YAMATO, DOLCEではdependent entityとなっている)
        • QuantitativeValue: 定量値:数と単位で構成される。Countなど、単位の無い定量値もある。
          • Rational scale 四則演算が可能。普通の定量値
          • Nominal scale 加減演算のみ意味がある。セルシウス度の温度など、特殊な定量値。
        • QualitativeValue定性値:通常テキストで表現される。
          • Ordinal scale value 順番のみで定量性が無い
          • Nominal scale 順番さえない
        • 上記の分類の他に、順序あり/なし、間隔が定量的/定性的、四則演算可能/加減のみ可能という分類もできる(こちらが本質的かもしれない)が、統計計算においては、NominalとOrdinalの扱いがほとんど同じらしいので上記分類とした。
      • Unit: 単位。根本的意味は「単位量」で値の一種と考えられる。
      • Continuant:(性質を持っている)モノ。 (bfo:continuant, sio:object, yamato:continuant)
      • SingletonEAV_styledData: 計測値などのデータとして例2のために作ったクラス。



その他課題/問題点など

  • 哲学的な部分
      • セルシウス温度とケルビン温度、SameAsで結びたいが、両者の尺度は異なる。尺度を跨いだ単位変換ではSameAsしない等、何らかの制限が必要。
      • 数学の勉強が必要。
  • その他
個人用ツール