Isolation Forest_2

March 16, 2025

Isolation Forest와 관련해서 재탐구 2 #

Isolation Forest 와 Anomaly detection에 대해 사회적 현상과 관련해서 생각하고 있는 내용을 정리했습니다.

anomalies는 정상 데이터보다 Binary Search로 접근할 경우 path Length 가 적다 라고 가설을 세우고 그걸 증명한 논문의 아이디어가 너무 신기했고, 계속 생각하게 됩니다. 여기에서 더 나아갈 수 있는 부분이 있는지.

좀더 anomalies를 적은 복잡도로 탐지할 수 있는 방법이 있을 지 등도요.

Anomalies & IQ #

정상 범주를 넘어 있는 것들에 대한 관심이 있습니다. anomalies. 이상치 라는 값들에 대해서 관심을 가지게 된 건

첫 번째는 IQ 측정과 관련해서 였던 것 같습니다.

IQ는 mean 100, standard deviation 값은 15 로 1차원의 Univariate Gaussian Distribution의 형태로 이루어져 있습니다.

변수는 x (IQ) 하나만 있는 경우고, 밀도 함수로 벨 곡선 형태를 가지고 있습니다.

std 1 을 기준으로 85 와 115, std 2를 기준으로 70과 130. std 3을 기준으로 65와 145

의 IQ를 기준점을 잡고,

통상적으로, std 2 이하와 이상인 경우를 “비정상” 이라고 정의 내립니다.

“비정상” 은 “이상치” 라고 하기도 하고, “일어날 확률이 낮다” 라고도 정의를 내립니다.

특히 std 2 이하인 경우는 법률적으로도 매우 중요한데

해당 지능지수를 가진 경우 스스로 판단할 수 있는 능력이 낮다고 보기 때문에 사회적/법적 보호를 받을 수 있습니다.

그리고 그 거울 반대편인 std 2 이상의 경우에는 사회적으로 높은 기대를 가지게 되는데,

사회적 기여 가능성이 높아 지원 대상이 되기도 합니다.

Anomalies & Isolation. 왜 해당 단어들은 함께 등장하는 걸까? #

흥미로운 건 anomaly 는 고립 Isolation 이라는 단어와 늘 함께 등장을 한다는 겁니다.

고립이라는 용어는 인스턴스를 나머지 인스턴스와 분리되는 것을 뜻한다고 정의내릴 수 있고,

이상치들은 ‘일어날 확률이 적고, 일반 데이터와 다르기’ 때문에 고립에 취약합니다.

std 2 이하와 이상의 경우 빠르게 사회와 분리되어 버린다. 라고 볼 수 있습니다.

이런 아이디어를 바탕으로 Isolation Forest는 데이터 포인트를 랜덤하게 나누는 트리(tree)를 만들어

각 데이터가 얼마나 빨리 고립되는지에 따라 이상치를 판별합니다.

이때 정상 포인트는 고립되기까지의 경로 길이(path length)가 길지만,

이상 포인트는 상대적으로 짧은 경로 길이로 빠르게 고립됩니다.

매우 단순하지만 직관적인 아이디어라는 점에서 흥미를 느꼈습니다.

Dimension #

그런데 IQ와 같이 변수가 하나뿐인 단변량(Univariate Gaussian) 정규분포에서는

평균에서 멀리 떨어진 점이 이상치로서 쉽게 인식될 수 있다는 점을 이해했습니다.

그렇다면 창의성 차원을 덧붙이거나 bivariate gaussian, 추가로 사회적 지능을 덧붙여서 trivariate gaussian이 되도록 하면? 추가로 감성 지능 등등과 같이 차원 변수를 높인가면?

즉 차원이 높은 데이터라면 고립이 빠르게 될까요?

이론적으로 차원이 높아질수록 데이터는 희소한(sparse) 공간에 존재하게 되어

점들이 서로 멀어지기 때문에 Isolation Forest가 더 빠르게 고립시킬 가능성이 있습니다.

하지만,,,,

여기에는 차원의 저주(curse of dimensionality)라는 문제도 함께 등장합니다.

차원이 높아질수록 모든 점 사이의 거리가 비슷해지는 경향이 나타나기 때문에,

이상치와 정상 데이터 간의 차이가 명확하지 않다면 실제로 고립이 더 어려워질 수도 있습니다.

iForest 이후 개선점 #

이런 한계를 극복하기 위해 Isolation Forest 이후에도 다양한 개선 기법들이 등장했습니다.

대표적인 기법으로는 다음과 같은 연구들이 있습니다:

Extended Isolation Forest(EIF):

기존의 축에 평행한 분할 대신 데이터 공간에서 임의의 각도로 분할해 성능을 높인 방식

Rotated Isolation Forest(RIF):

데이터를 무작위로 회전시켜 유령 클러스터(ghost cluster)를 방지하고 정확도를 높임

Attention-based Isolation Forest(ABIForest):

주의 메커니즘(attention)을 적용하여 중요한 특징에 가중치를 주는 방식

Optimal Isolation Forest(OptIForest):

이론적 분석을 바탕으로 최적의 트리 구조를 찾아 성능을 높임

Active Learning-based Isolation Forest(ALIF):

능동 학습(active learning)을 이용해 사용자 피드백을 반영하여 모델을 지속적으로 개선하는 방식

흐름 #

최근의 연구 흐름을 보면, Isolation Forest의 핵심 아이디어는 유지하면서도,

분할 방식의 다양화나

최적화된 구조 등으로 성능을 지속적으로 개선하고 있는 것을 알 수 있습니다

여전히 신기 #

Isolation Forest 개념

iForest를 봤을 때 짧은 경로 길이를 가진다고 할 때 일단 좀 신기했습니다. 랜덤한 분할을 할 때 더 빠르게 분할 된다고 하고,

정상 포인트 x_{i} 는 고립되기 위해 12개의 랜덤 분할이,

이상 포인트 x_{o} 는 고립되기 위해 4개의 랜덤 분할이 이루어지며,

tree의 수가 증가할 때 average path length는 수렴합니다. x_{i}는 대략 12.82개, x_{o}는 대략 4.02개.

정리 #

결론. 비정상적일 수록 빠르게 사회와 고립된다…ㅋㅋㅋ 암시적이기도 하고, 개인적인 삶에서 이런저런 지원들이 많이 필요할 듯합니다.

어쨌든 생각 정리 끝.

Reference #

Liu, F. T., Ting, K. M., & Zhou, Z. (2008). Isolation forest. Proceedings of the 2008 IEEE International Conference on Data Mining (ICDM), 413-422. https://doi.org/10.1109/ICDM.2008.17