見出し画像

データ分析で出てくる「オントロジー」って?

こんにちは、Yuriiiです。

データ分析の勉強をしていると、「オントロジー」がちょくちょく登場します。

「オントロジー」って何?状態でしたので、改めて理解できるように、まとめます。


まず、「オントロジー」というのは哲学用語から来ているんですね。

哲学の存在論から来ています。アリストテレスとかも触れています。

存在論とは何かとか言い出すと、説明できるほど把握できていないのとキリがないのでおいておきます。


それが情報学になるとどういう概念になるのかというと。

最近では,知識獲得の困難さを克服するための試みとして,知識の共有化や再利用の方法,ならびに問題解決に必要な知識をデータベースから自動的に抽出する方法に関する研究開発が進んでいる。前者,共有・再利用可能な形式に整えられた知識をオントロジーという用語で呼ぶ場合がある。後者は,人工知能の機械学習やデータベース,統計手法との関連が強く,データベースからの知識発見(知識発掘),あるいはデータマイニングという用語で呼ばれている。
(コトバンク 世界大百科事典【知識表現】から)

知識表現とは何かというと、人間語を機械語に変換することです。

対象世界にかかわる諸概念を整理して体系づけ,コンピュータにも理解可能な形式で明示的に記述したもの.
(コトバンク 図書館情報学用語辞典第5版「オントロジー」から)

簡単に言うと、オントロジーは、概念というかモノ同士の関係を整理するツールです。

一定のレベルで関係を規定することで、正しく伝達することができるのです。

例えば、「学問」という概念があったとします。

「学問」だけでは、どういうモノなのか、何と関係しているのかがコンピュータには分かりません。

「学問」に「歴史」「情報学」「勉強する」「学ぶ」「教育」「教える」「教わる」などを関連付けることで、大枠を把握することができるのです。

「歴史」・・・からもさらに「日本史」「世界史」「東洋史」などつなげることができます。

そうやって細分化することで、コンピュータがその概念を理解できるようになります。

また、複数の「情報」がそれぞれの「意味」によって結びついている情報全体のことをLinked Data(LD)と呼びます。

そうしたオントロジーの情報と情報のつながりを「意味リンク」といいます。

「意味リンク」には4種類あります。
それぞれの詳細は、下の方にはっているサイトを参考にしてみてください。

・全体ー部分リンク
・属性リンク
・継承
・関係リンク


オントロジーは、RDFスキーマで定義されたXML形式(RDFドキュメント)で表現されます。

RDFドキュメントってなんや・・・と思いましたが、これまた説明できないので、頭の片隅においておきます。

RDFドキュメントで使われる言語は、RDFSやOWLです。


次々に新しい概念が出てきましたが、知っておいて損はないと思います。

データ分析には、データの属性やデータ同士の関連性を考慮する必要があると改めて感じました。


ここまで読んでくださり、誠にありがとうございます!

スキやコメント、フォローをしてくださると大変嬉しいです!