Ontology

Ontology

November 24, 2024
Memo, writing
Ontology, 정보 표현

Ontology란 #

Ontology의 철학적 정의

  • “Ontology"는 그리스어 “on(being)” 과 “logos”(study연구, discourse담론) 에서 유래.

  • 온톨로지는 being(존재), existence(실재), reality(현실)의 본질에 대해 연구하는 철학의 한 분야.

  • metaphysics 의 핵심 영역이며, 존재(exist) 하는 것들의 가장 기본적인 범주와 관계에 대해서 연구하는 것.

  • 아리스토텔레스는 존재 자체(being qua being)를 연구하는 학문이라고 보았고, 그 이후에 온톨로지를 General metaphysics, Special metaphysics로 구분하거나, formal ontology 혹은 regional ontology로 구분하려는 시도도 있음.

  • 온톨로지와 관련해서는 다음의 질문을 던짐.

    • 존재의 본질은 무엇인지,
    • 있다면 어떤 종류로 구분될 수 있는지.
    • 그 종류의 관계는 무엇인지.
    • 존재와 비존재의 차이는 무엇인지.
  • 관련한 주요 연구 주제로는

    • 추상적 혹은 이상적 개념(Abstract or ideal Forms),
    • Universals,
    • 비물질적인 마음(Immaterial minds…),
    • 마음과는 독립적인 세계(Mind-independent world),
    • 있을 법하지만 실재하지 않는 객체(Possible but not actual objects),
    • 본질(essences) 등
  • 온톨로지는

    • 철학에서는 실재와 존재의 근본적인 본질을 이해하기 위한 개념을 제시,
    • 컴퓨터 과학에서는 정보를 표현하고 구성하는 방식 틀.
    • 정보 과학에서는 데이터를 더 효율적으로 검색하고 분석하기 위해 분류하고 구조화.
    • 언어학에서는 의미 분석과 관련하여 온톨로지 개념이 적용.
  • 즉, 세계의 근본적 본질에 대해 지식을 이해하고 조직화하는 틀을 제공함.

정보 표현에서의 Ontology #

  • 정보 표현 및 구성
    • 정보 표현 방식에서 온톨로지는 특히 semantic web에서 제공되었음. 웹 표준 기술… 도메인 내의 개념(클래스), 관계(속성), 개체(인스턴스)를 구조화하고 표현하기 위해서 사용됨.
    • Semantic 웹은 1998년 버너스 리에 의해 제안된 개념. 기계가 웹 상의 정보를 이해하고 처리할 수 있는 지능적인 웹을 목표로 함.
  • 형식
    • OWL, Turtle, N-triples 등의 형식으로 제공는데, OWL은 지식 표현 및 논리 추론. Turtle/N-Triple은 데이터 교환 및 저장을 구현
    • OWL(Web Ontology Language) : 온톨로지를 설계하고 논리적 추론을 가능하게 하는 언어. 시맨틱 웹에서 복잡한 지식 기반을 생성하고 관리하는 데 사용됨. W3C에서 OWL을 표준으로 제시함. 예시로는 Google Knowledge Graph, 의료 데이터 모델링 등이 있음.
    • Turtle(Terse RDF Triple Language) : RDF(Resource Description Framework) 데이터를 사람이 이해하기 쉽게 표현하는 형식. RDF는 (주어subject, 술어predicate, 객체object) 구조로 지식과 데이터를 표현하는 표준 프레임워크.
    • N-Triples: RDF 데이터를 단순화된 텍스트 기반으로 표현하는 형식.
  • 특징
    • 특정 영역 내 지식을 구조화된 방식으로 표현하는 것인데, 개념과 관계에 대한 이해, 다양한 시스템 및 데이터베이스 간의 상호운용성, 정보 검색 및 지식 관리 향상에서 온톨로지 개념이 적용되는 것을 확인할 수 있음.
    • 특정 도메인의 개념, 속성, 관계를 명확하고 형식적으로 정의하기 때문에 기계가 이해하고 처리할 수 있는 방식으로 지식을 표현함.
    • 온톨로지의 구조화된 형식은 새로운 지식을 유추하고 복잡한 쿼리에 답변하는 데 활용됨. 특히 heterogeneous 데이터 소스를 다룰 때 중요.
  • 시멘틱 웹의 경우 초기의 야심한 비전을 실현하지는 못했지만.. Linked Data나 RDF, Ontology 기술 등을 보면 데이터의 의미적 표현과 처리에 활용되고 있는 측면에서 부분적인 성과를 거둔 것.

비지니스, Ontology #

  • 온톨로지 기반 데이터 접근 방식
    • 현재 데이터 분석 접근 방식에서 존재하는 데이터로 인사이트를 얻는다는 접근 방식은 효율적인 것일까. 어쩌면 garbage in, garbage out. 문제 해결 중심으로 데이터 흐름을 설계하는 것이 필요
    • 특정 솔루션 없이도 하나의 일관된 접근 방식으로 다양한 문제를 해결하는 방식으로 설계하는 접근 방식이 필요함.
  • 파운드리
    • 문제 해결 중심 플랫폼.
      • 파운드리는문제 해결에 필요한 데이터를 기술적으로 연결하고 시뮬레이션할 수 있는 도구. 기업의 핵심 문제를 Ontology를 통해 모델링하려는 것.
    • 구성 요소
      • Objects : 데이터 기본 속성
      • Links : objects 연결
      • Actions : 정보 처리 방식
    • 특징
      • 플랫폼으로 시뮬레이션 기반 의사결정을 지원
      • 확장성이 높은 구조
      • 최소 인원으로 효율적인 문제 해결 가능
      • 고객사의 기존 데이터를 온톨로지로 통합하여 빠른 솔루션 개발 가능
    • 질문. 비지니스 문제는 다음의 질문을 통해 접근하기 시작.
      • 무엇을 해결하고 싶은지? -> 어떤 의사결정을 할 것인지? -> 필요한 데이터는 무엇인지?
      • 데이터 기반으로 질문을 던지는 것이 아니라(이미 주어진 데이터에서 유용한 무언가를 추출하겠다…), 문제(수확한 감자와 고구마를 최대한 잘 팔겠다) 기반에 맞춰서 데이터를 활용하는 방식으로 가는 접근 방식을 채택.
    • 구현 프로세스
      • 구현 방식으로는 version 0의 온톨로지를 생성 후, 추가적인 수정을 거침. 고객사의 기존 데이터에 연결. 장점은 확장성이 높은 데이터 구조. 고객 비지니스와 기술자 간의 시너지를 극대화시키는 방향.
    • Artificial Intelligence
      • 이 중 온톨로지의 links 역할을 구현하는 방식에서 데이터 관리를 위해 artificial intelligence를 적용할 수 있음,
      • 데이터 관리 분야에 AI를 적용.
      • 주요 기능
        • Prompt Engineering
        • Tools Orchestration
        • Human-in-the-Loop
        • Security & Audit
      • 데이터 위치와 처리 방식을 관리하는 데 활용할 수 있음. 프롬프트 엔지니어링, 툴 오케스트레이션, 보안, 감사 및 로깅 등의 기능을 구현. Human-in-the-Loop 기능을 제공해 사람이 직접 개입하고, 고객이 원하는 LLM을 연결해 사용할 수 있도록 지원.
  • 해당 온톨로지를 활용한 것의 강점은 데이터 준비 및 배포에서 강점을 가짐. 핵심 문제에 집중한 솔루션을 제공할 수 있고, 최소 인원과 짧은 시간 내 문제 해결이 가능함.
  • 내부적으로 데이터 구조가 정체되거나 병목되는 현상을 처리하는 방식을 파악하는 것도 흥미로운 부분일 듯함.
  • 일단 큰 문제는 핵심 문제에 다가가는 것. 핵심 문제. 비지니스 핵심. 핵심 에 대한 단어만 세 번 이상 언급. 그 만큼 핵심 문제는 파악이 어려움.

Ontology, Topology #

  • 공통점 : 온톨로지와 토폴로지 모두 관계와 구조를 다룸.
  • 차이점 : 온톨로지는 개념 간의 관계를, 토폴로지는 공간적 관계와 구조를 다룸. 주로 공간 관계를 표현할 때 해당 위상적 개념을 활용함.
  • 토폴로지 관계 표현을 위해 특정 데이터 구조(Quadtree)를 사용할 수 있음. 이를 통하면 공간 개념과 의미론적 검색을 동시에 지원함.
  • 토폴로지적 관계를 온톨로지에 통합하여 시스템의 공간 추론 능력을 향상시킬 수 있음. 동적인 위상학적 관계를 표현하고 추론.

topology_ontology

Reference: Applying Knowledge Inference on Event-Conjunction for Automatic Control in Smart Building

  • 해당 그림은 실제 빌딩에서 토폴로지 온톨로지를 적용시킨 것인데, 실제 문제 해결 기반 파운드리도 해당 그림처럼 layer 들의 조합으로 표현될 수 있을 듯하여 가지고 옴.
  • 공간 정보를 다루는 시스템에서 개념 표현 및 추론 능력을 모델링하고 처리할 수 있을 듯함.
  • context와 ontology를 통합하기 위한 툴로 토폴로지를 사용….

context_ontology

Reference : Putting Things in Context: A Topological Approach to Mapping Contexts and Ontologies

Ontology, manifold #

결국 ontology는 실재, 존재, 현실에 대한 개념. 특히 존재 및 실재에 관련해서 현실적 플랫폼에서 어떻게 표상/구현할 것인지(실재는 표상할 수 있지만 존재를 표상하는 게 가능할까)

  • 실재하는 데이터를 구현하거나,
  • 직접적으로는 보이지 않지만 분명 존재한다는 걸 알고 있는 개념 혹은 데이터를 표상하는 방식이니
  • manifold한다고도 볼 수 있을 듯함… 여러 온톨로지 관계를 매핑할 때, 하나의 공통된 특정 공간에 매핑하는 걸 manifold 한다고도 본다면,
  • 특정 개념에 대해서 category 화가 되고 해당 관계에 대해서 표상화할 때, 고차원 개념이 저차원 플랫폼에 표현하는 것이 가능한지. 전환되는 과정에서 어떻게 손실이 일어날 것인지.
  • 손실을 줄이기 위해서는 차원을 높이는 방법 밖에 없을까? 각 레이어 층을 통해 topology 구조로 가는 듯 보이기도 함.
  • 그럼 결국 neural network 구조가 아닐까. AI를 사용했다고 하지만 들어보면 그저 중간 제어용…어쩌면 마케팅을 위한 듯하고, 아예 LLM을 직접 구현할 필요는 없을 듯하고. 온톨로지 관련 objects, links, actions 관련해선 neural network, topology의 구조적 유사성과 관련해서 좀 더 암시해서 볼 수 있을 것 같음. 특히 objects 를 link 하는 과정에서.

마무리 #

  • Ontology의 철학적 접근 및 정보 과학의 접목 부분. 인간의 지식 체계와 기계의 지식 체계의 연결성. neural network 구조가 더 정답이 아닐까라는 건 개인적인 의견. 인간의 지식 체계는 amygdala, hippocampus, prefrontal cortex 등의 끊임없는 내부적 상호연결 및 외부 기록 도구인데, 기계의 지식 체계도 점점 인간을 닮아가지 않을까.
  • Ontology 플랫폼 구현을 고차원 개념을 저차원 데이터 공간에 매핑하는 과정으로 해석했지만… 다른 관점이 있을 수 있고 그게 궁금함. 온톨로지 기반 플랫폼의 핵심 강점은 확장성과 통합 가능성… 이게 어떻게 작동되는지 아직은 의문. 보안, 제약, 철강, 국가 시설 등 다양한 분야에 같은 시스템 적용. 정말로 다양한 분야의 문제를 한 시스템, 온톨로지로 적용가능한 걸까.
  • 온톨로지는 철학적 탐구에서 시작되었지만, 인공 지능 발전으로 실질적인 문제 해결 도구로 진화하고 있음. 다양한 관점에서 적용과 확장 가능성을 탐색해 볼 수 있음. 어쩌면 양자화 관련해서도 온톨로지 관점을 접목해볼 수 있지 않을까… being 의 상태가 여러 개이고, existence가 다르게 표상되는 지점.
  • 핵심 문제.