Mean-Shifted Contrastive Loss 이상 탐지 방법
서론: 이상 탐지의 도전과제
이상 탐지(Anomaly Detection)는 과학과 산업 분야에서 핵심적인 문제입니다. 컴퓨터 비전 분야에서 이상 탐지는 정상 데이터만을 사용해 모델을 훈련시킨 후, 새로운 샘플이 정상인지 비정상인지 분류하는 작업입니다. 이 작업은 크게 세 가지 설정으로 나눌 수 있습니다:
- 이상 탐지(Anomaly Detection): 정상 이미지만을 사용하여 훈련
- 이상 분할(Anomaly Segmentation): 이상 픽셀을 탐지
- 아웃라이어 노출(Outlier Exposure): 이상을 시뮬레이션하는 외부 데이터셋 활용
기존 이상 탐지 방법들은 제한된 정상 훈련 데이터에만 의존하여 표현(representation)을 학습하는데, 이는 학습된 표현의 품질을 제한합니다. 거의 모든 최첨단 이상 탐지 방법은 자기 지도 학습(self-supervised feature learning)에 의존하고 있습니다.
이상 탐지와 Center Loss
Center Loss는 이상 탐지에서 중요한 역할을 하는 손실 함수입니다. 이 손실 함수는 정상 데이터의 특징이 미리 정해진 중심점에 가까워지도록 학습시킵니다:
여기서 c는 보통 훈련 세트의 평균 특징 벡터입니다. Center Loss를 최적화하면 정상 데이터의 특징이 더 밀집되어 이상 탐지 성능이 향상됩니다.
그러나 Center Loss만 사용하면 '파국적 붕괴(catastrophic collapse)'가 발생할 수 있습니다. 이는 모든 입력이 동일한 출력(φ(x) = c)으로 매핑되는 현상입니다. 이렇게 되면 정상과 비정상 샘플을 구분할 수 없게 됩니다.
Mean-Shifted Contrastive Loss의 주요 발견
논문의 핵심 발견은 다음과 같습니다:
- 사전 학습된 특징의 우수성: 외부 데이터셋(예: ImageNet)에서 사전 학습된 특징을 사용하는 간단한 방법이 복잡한 최첨단 방법들보다 훨씬 우수한 성능을 보입니다.
- 특징 적응의 문제: 표준 대조 손실(contrastive loss)이 사전 학습된 특징과 결합될 때 성능이 저하되는 문제가 발생합니다. 이는 사전 학습된 특징이 이미 컴팩트한 공간에 집중되어 있기 때문입니다.
- Mean-Shifted Contrastive Loss 제안: 논문은 표준 대조 손실의 한계를 극복하기 위해 Mean-Shifted Contrastive Loss를 제안합니다. 이 방법은 원점이 아닌 정상 데이터의 중심을 기준으로 각도를 측정합니다.
Mean-Shifted Contrastive Loss의 작동 원리
Mean-Shifted Contrastive Loss(MSC)와 기존 대조 손실(standard contrastive loss)은 비슷하게 정상 데이터의 특징이 중심 주변에 모이도록 하지만, 접근 방식이 다릅니다:
- 표준 대조 손실: 원점을 기준으로 각도를 측정하여 특징들이 구 전체에 균일하게 분포하도록 최적화합니다. 그러나 이는 정상 데이터가 밀집되어 있는 경우에 부적합합니다.
- MSC Loss: 원점이 아닌 정상 특징들의 중심을 기준으로 각도를 측정합니다. 이는 음성 쌍 간의 각도를 최대화하면서도 중심과의 거리를 유지합니다.
MSC는 다음과 같은 수식으로 정의됩니다:
여기서 c는 정상 데이터의 평균 특징 벡터, τ는 온도 파라미터, sim은 코사인 유사도입니다. "i ≠ m"의 의미는 두 인덱스가 서로 다르다는 것입니다. 주어진 식에서 이 조건은 다음과 같이 활용됩니다:
- 비교 기준: 모델이 양성 샘플(positive sample)과 음성 샘플(negative sample)을 구분하기 위해 사용됩니다. 여기서 "i"와 "m"은 각각 다른 이미지들(이미지에 대한 인덱스)에서 나타내며, 같은 이미지를 가리키지 않음을 보장합니다.
- 목적: 수식에서 이 조건은 모델이 특정 이미지(예: xᵢ)와 그 이미지와 다른 다른 이미지(예: xₘ) 간의 유사성을 비교하고, 그 정보를 통해 뛰어난 특징을 학습하도록 돕는 역할을 합니다. 즉, 모델이 양성쌍의 거리가 가깝고, 서로 다른 인덱스의 이미지 간의 거리는 멀게 유지되도록 하고 있습니다.
- 이 조건은 효과적인 특성 학습, 특히 하나의 클래스(class) 내에서의 예외 탐지(anomaly detection) 구조에서 중요한 역할을 합니다. "i ≠ m"을 활용하여 비슷한 이미지를 가까이 놓고, 서로 다른 이미지를 멀게 하여 더 나은 distinction(구분)을 만들어내는 것입니다.
- 결론적으로 "i ≠ m"은 모델이 양성과 음성을 잘 구분할 수 있도록 하여, 더 나아가 자율적으로 이상치를 탐지하는 데 기여하는 중요한 요소입니다.
Positive Pair 생성 방법
Mean-Shifted Contrastive Loss에서는 대조 학습의 기본 원리에 따라 positive pair와 negative pair를 구분하여 학습합니다. 원 논문에서는 positive pair를 다음과 같이 생성합니다:
- 데이터 미니배치 샘플링: 크기 B의 미니배치를 무작위로 샘플링합니다.
- 데이터 증강(augmentation) 적용: 각 이미지에 대해 두 가지 서로 다른 augmentation을 적용하여 총 2B개의 데이터 포인트를 생성합니다.
- Positive Pair 형성: 동일한 원본 이미지에서 생성된 두 augmentation(xi, xi+B)이 positive pair로 사용됩니다.
논문의 구현에서는 Chen et al.(2020b)에서 제안한 데이터 증강 모듈을 채택했으며, 다음과 같은 변환을 순차적으로 적용했습니다:
- 무작위로 크기가 조정된 이미지에서 224×224 픽셀 크롭
- 무작위 색상 지터링(jittering)
- 무작위 그레이스케일 변환
- 무작위 가우시안 블러
- 무작위 수평 뒤집기
이러한 방식으로 동일한 원본 이미지에서 서로 다른 두 가지 변형(augmentation)을 만들어 positive pair로 사용하고, 서로 다른 이미지 간에는 negative pair를 형성하여 대조 학습을 수행합니다. 이를 통해 모델은 동일한 이미지의 다양한 변형을 인식하는 능력을 키우면서, 서로 다른 이미지는 특징 공간에서 멀리 떨어지도록 학습됩니다.
MSC의 장점
균일성(Uniformity)
표준 대조 손실은 원점 주변의 구 전체에 특징들이 균일하게 분포하도록 최적화하지만, 이는 정상 데이터가 컴팩트한 영역에 집중된 경우 비효율적입니다. MSC는 데이터 중심 주변에서의 균일성을 평가하므로, 정상 데이터가 이미 균일하게 분포된 경우 학습이 의미적 유사성을 향상시키는 데 집중할 수 있습니다.
중심 주변의 Compactness
표준 대조 손실은 음성 쌍(negative pairs) 간의 각도를 최대화하면서 중심과의 거리도 증가시킵니다. 반면, MSC는 음성 쌍 간의 각도를 최대화하면서도 중심과의 거리를 유지합니다. 이는 정상 데이터가 중심에 더 밀집되게 하면서도, 사전 훈련된 특징의 구조를 보존할 수 있다는 장점이 있습니다.
실험 결과
MSC는 다양한 데이터셋에서 기존 최첨단 방법들보다 크게 향상된 성능을 보였습니다:
- CIFAR-10: 98.6% ROC-AUC
- CIFAR-100: 96.4% ROC-AUC
- CatsVsDogs: 99.3% ROC-AUC
특히, MSC는 다양한 도메인(예: 의료 이미지, 항공 이미지, 산업 이미지)에서도 우수한 성능을 보여, 사전 학습된 특징의 일반화 능력이 뛰어남을 입증했습니다.
ROC-AUC 평가의 이해
ROC-AUC는 다양한 임계값에서 이상 탐지 모델의 성능을 평가하는 지표입니다. 98.6%의 AUC는 모델이 정상과 비정상 데이터를 매우 효과적으로 구분할 수 있음을 의미합니다. 이는 정상 샘플의 점수가 비정상 샘플보다 낮을 확률이 98.6%라는 의미로 해석할 수 있습니다.
수학적으로 표현하면, f(정상 샘플) < f(비정상 샘플)일 확률이 0.986이라는 뜻입니다. 남은 1.4%는 모델이 정상 샘플에 더 높은 점수를 부여하는 경우를 나타냅니다.
회전 예측과 사전 학습된 특징의 관계
논문에서는 회전 예측 기반 방법(예: RotNet)이 사전 학습된 가중치로 초기화될 때 오히려 이상 탐지 성능이 저하되는 흥미로운 현상을 발견했습니다. 이는 사전 학습된 특징이 정상 및 비정상 이미지 모두에서 회전 예측 성능을 향상시키기 때문입니다.
예를 들어, CIFAR-10 데이터셋에서 자가 지도 학습된 RotNet은 정상 데이터에서 94.0%, 비정상 데이터에서 51.6%의 회전 예측 정확도를 보였습니다. 반면, 사전 학습된 RotNet은 정상 데이터에서 92.3%, 비정상 데이터에서 61.3%의 정확도를 보였습니다. 이는 사전 학습된 특징이 정상과 비정상 데이터 간의 차이를 줄이므로, 이상 탐지에 적합하지 않을 수 있음을 시사합니다.
결론
Mean-Shifted Contrastive Loss는 이상 탐지를 위한 사전 학습된 특징 적응의 문제를 해결하는 효과적인 접근법을 제공합니다. 논문의 주요 기여는:
- 표준 대조 손실이 사전 학습된 특징과 결합될 때 성능이 저하되는 문제를 분석
- 원점이 아닌 데이터 중심을 기준으로 각도를 측정하는 Mean-Shifted Contrastive Loss 제안
- 다양한 데이터셋에서 최첨단 성능 달성 (CIFAR-10에서 98.6% ROC-AUC)
이 연구는 이상 탐지에서 사전 학습된 특징의 중요성을 강조하며, 특징 적응의 문제를 해결하는 새로운 방향을 제시합니다.
https://arxiv.org/abs/2106.03844, Mean-Shifted Contrastive Loss for Anomaly Detection