본문 바로가기
데이터 분석

Maximum Mean Discrepancy(MMD, 최대 평균 불일치) 개념 정리

by 데이널 2024. 1. 31.

데이터 분석에서 정답을 맞히는 작업은 분포를 비슷하게 가져가는 것과 같은 말인데요. 확률 분포 간의 차이를 측정하는 효과적인 방법에 대한 연구는 학계에서 계속되고 있을 정도입니다. 그 결과 다양한 통계 기법이 출현하게 되었죠. 그중에 눈에 띄는 강력한 방법 중 하나는 최대 평균 불일치(MMD)입니다. 
 


MMD 지표는 데이터셋 간의 차이를 수치화하기 위한 역할을 하고 있습니다. 도메인 적응(Domain Adaptation), 커널 기반 방법 및 생성 모델링과 같은 분야에서 활용하고 있죠. 이 글에서 MMD(최대 평균 불일치)의 원리와 머신러닝, 딥러닝 영역에서 그 중요성을 다뤄 보겠습니다.
 

최대 평균 불일치
최대 평균 불일치(MMD, 출처: Scientific Reports)

 

최대 평균 불일치(MMD)란?

최대 평균 불일치는 두 확률 분포 간의 차이점을 평가하기 위해 고안된 측정지표입니다. MMD의 기본 아이디어는 재생 커널 힐베르트 공간(RKHS)에서 분포의 평균 임베딩 차이를 계산하는 것입니다. 여기서 어려운 말이 힐베이트, 임베딩 두개 나옵니다. 

 

먼저 힐베이트는 무한차원의 공간을 말하는 것이라고 단순하게 이해할 수 있습니다. 임베딩은 딥러닝에서 계속 배우게 되는 개념인데 각 데이터에 일대일 대응하는 벡터 뭉치를 ‘임베딩’이라고 합니다. 더 자세한 내용은 나무위키를 참고하세요. 
 
위의 어려운 말은 단순하게 말하면 MMD는 고차원 공간에서 함수의 기대값 간의 불일치를 평가하여 차이점을 정량화 기법이라고 풀어서 말할 수 입니다. 


MMD의 구성 요소

1. 커널 함수

MMD의 핵심은 커널 함수를 선정하는 작업입니다. 커널 함수는 입력 공간의 데이터 포인트를 고차원 공간에 변환하는 역할입니다. 이렇게 하는 이유는 결정 경계가 단순한 초평면이 아닌 복잡한 문제를 해결하는데 유용하죠. 일반적인 커널 함수 선택에는 가우스(RBF) 커널과 다항식 커널이 있습니다. 이는 각 분포 간의 다양한 유형에 따라 MMD의 민감도에 영향을 미칩니다.

 

2. 평균 임베딩

MMD는 선택한 커널 함수를 기반으로 데이터 포인트를 고차원 공간으로 변환하는 평균 임베딩 개념을 활용합니다. 평균 임베딩은 이 변환된 공간에서 함수의 예상 값을 나타내며 분포 특성에 대한 미묘한 차이를 보여 줍니다.


MMD의 활용

 

1. 도메인 적응(Domain Adaptation)

소스 도메인과 대상 도메인이 다른 기계 학습 시나리오에서 MMD는 도메인 적응을 위한 중요한 역할을 합니다. MMD는 소스 도메인과 대상 도메인의 분포 간의 차이점을 정량화함으로써 특징 공간의 정렬을 용이하게 하여 도메인 전체에 걸쳐 모델 일반화를 향상시킵니다.

 

2. 커널 기반 방법

최대 평균 불일치는 커널 기반 방법에서 자주 활용되며 SVM(서포트벡터머신) 및 커널화 회귀와 같은 작업에서 성능 향상에 기여합니다. MMD는 특징 공간에서 분포 간의 차이를 포착하는 데 도움을 주어 모델의 정확도를 높이는데 역할을 합니다.

 

3. 생성 모델링

MMD는 생성적 모델링, 특히 GAN 모델의 평가에 통합되어 있습니다. MMD는 생성된 데이터와 실제 데이터의 분포를 비교합니다. 생성된 샘플의 충실도를 평가하기 위한 측정 기준을 제공하고 보다 현실적인 출력을 위해 사용합니다.

 

MMD의 장점

 

1. 분포 정렬

MMD는 분포 정렬에 탁월하므로 도메인 적응 또는 전이 학습이 필요한 경우에 특히 유용합니다. 이 측정 항목은 데이터셋 간의 분포 차이를 최소화하는 방식으로 사용합니다. MMD를 통해 모델 성능이 향상할 수 있습니다.

 

2. 비모수적 접근 방식

MMD의 비모수적 특성으로 인해 특정 모수적 형태를 가정하지 않고도 분포 간의 복잡한 관계를 포착할 수 있습니다. 이러한 유연성으로 인해 머신러닝, 딥러닝에 대한 여러 영역에서 적용 가능성이 높습니다.


MMD의 고려 사항

1. 커널 선택에 대한 민감도

MMD의 성능은 ‘커널 함수’ 선택에 따라 영향을 받을 수 있습니다. 다양한 커널은 다양한 유형의 데이터에 적합할 수 있지만 분포의 특성을 고려하여 신중하게 선택해야 합니다.

 

2. 계산 복잡성

MMD 계산에는 두 쌍의 커널 값 평가가 포함되는데요. 이는 특히 대규모 데이터셋의 경우 계산량이 많을 수 있습니다. 이러한 문제를 완화하기 위해 최적화 기술이 함께 사용되는 경우가 많습니다.


결론

최대 평균 불일치(MMD)는 분포 차이를 정량화하고 데이터셋을 정렬하는 기능으로 인해 다양한 영역에 널리 사용됩니다. 인공지능이 계속 발전함에 따라 MMD는 도메인 적응(Domain Adaptation), 커널 기반 방법 및 생성 모델 평가의 발전에 기여하고 있습니다.