데이터 분석75 Maximum Mean Discrepancy(MMD, 최대 평균 불일치) 개념 정리 데이터 분석에서 정답을 맞히는 작업은 분포를 비슷하게 가져가는 것과 같은 말인데요. 확률 분포 간의 차이를 측정하는 효과적인 방법에 대한 연구는 학계에서 계속되고 있을 정도입니다. 그 결과 다양한 통계 기법이 출현하게 되었죠. 그중에 눈에 띄는 강력한 방법 중 하나는 최대 평균 불일치(MMD)입니다. MMD 지표는 데이터셋 간의 차이를 수치화하기 위한 역할을 하고 있습니다. 도메인 적응(Domain Adaptation), 커널 기반 방법 및 생성 모델링과 같은 분야에서 활용하고 있죠. 이 글에서 MMD(최대 평균 불일치)의 원리와 머신러닝, 딥러닝 영역에서 그 중요성을 다뤄 보겠습니다. 최대 평균 불일치(MMD)란? 최대 평균 불일치는 두 확률 분포 간의 차이점을 평가하기 위해 고안된 측정지표입니다. M.. 2024. 1. 31. 카이제곱분포 사용 방법 이번 포스팅에서는 카이제곱분포에 대해 알아보도록 하겠습니다. 카이제곱 분포는 통계, 특히 가설 검정 및 신뢰 구간 구성의 맥락에서 발생하는 확률 분포입니다. 머신러닝이나 딥러닝에서 카이제곱분포는 속성 선택(feature seletion), 독립성 테스트, 적합도 평가 등에서 일반적으로 사용됩니다. 카이제곱분포란? 나무위키에 따르면 카이제곱분포(chi-squared distribution, χ2 분포)는 n개의 서로 독립적인 표준 정규 확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포라고 설명하고 있습니다. 예전 표현으로 카이자승분포라고 하기도 합니다. 즉 다차원. n차원 확률벡터 y ~ N(0, I)에 대한 분포가 카이제곱분포입니다. 참고로 χ는 그리스 문자 카이(chi)입니다. 좀 더 쉽게 말하면, .. 2024. 1. 20. 지도학습 비지도학습 쉬운 설명 지도 학습 vs 비지도 학습 이란 말이 너무 어렵게 느껴지시나요? 위키백과의 설명을 참고해도 그렇게 와 닿는 이야기는 아닙니다. 또 우리에게 약간의 선입견도 있습니다. ‘비지도’라고 하면 학습을 하지 않는 알고리즘이라는 생각이 먼저 듭니다. 만약 비지도니까 기계가 학습하지 않는 거라고 생각했던 분들은 그 생각은 바로 버리십시오. 이는 처음 분석을 하는 사람들이 많이 헷갈려하는 개념입니다. 그런데 걱정하지 마세요. 알고 보면 구별하기 너무 쉽다는 것을 알게 됩니다. 가장 쉬운 구분 방법은 '레이블이 있냐? 없냐?'입니다. 레이블이 뭐냐고요? 레이블(Label)은 정답지를 말합니다. 예를 들어, 수학시간에 x+1=y라는 수식이 있다고 생각해 보세요. 여기서 x값을 넣었을 때 y가 나온다고 하면 y가 레이블입.. 2023. 12. 18. 머신러닝과 딥러닝의 차이는 무엇일까요? 많은 사람들이 머신러닝과 딥러닝은 비슷하다고 생각합니다. 하지만 어떻게 다른지 정확히 설명하는 사람은 드믈죠. 보통 AI > 머신러닝 > 딥러닝이라는 공식으로 설명하는게 일반적이죠. 이 말이 틀린 설명은 아니지만 차이점에 대한 궁금증은 여전히 남아있습니다. 이번 포스팅에서는 머신러닝과 딥러닝의 핵심 차이점을 알아보고 어떻게 두 기술이 서로 보완하면서 지금의 기술을 발전 시키고 있는지 살펴보겠습니다 개인적인 경험을 이야기해 보겠습니다. 머신러닝을 익숙하게 사용할 때쯤 딥러닝이 훨씬 정확도가 높다는 이야기가 들려왔습니다. 소문으로 들었던 기술이라 어렵게만 느껴졌습니다. 하지만 어느세 딥러닝은 가장 강력한 알고리즘으로 부상했습니다. 그 계기가 딥마인드의 알파고와 이세돌의 대결이었죠. 그 순간, 더 이상 딥러닝.. 2023. 11. 11. Rule-base 와 머신 러닝은 어떻게 다를까? 『 '데이널'의 컨텐츠에 포함된 정보는? 』 여러분은 Rule-based Learning과 Machine Learning(머신 러닝) 어떻게 다르다고 생각하시나요? 이 두 기법 간에는 몇 가지 중요한 차이점이 존재합니다. 이번 포스팅에서는 내가 왜 두 분석 기법의 차이점을 이야기하고 싶었는지에 대한 배경과 각각의 특성과 장단점을 살펴보겠습니다. 배경사실 이 글을 쓰게 된 계기는 얼마 전 연구사업 프로젝트 평가에서 있었던 일 때문입니다. 평가위원이 프로젝트 결과물을 보고 "Rule-base로 하든 머신러닝으로 하든 같은 것 아니냐?"는 질문이 발단이 되었습니다. 어디서부터 설명해야 할지 무척 고민스럽더라고요. 하지만 평가위원이 왜 그런 말을 했는지 약간 짐작은 갔습니다. Big data 초창기에는 데이터 .. 2023. 11. 8. 서포트 벡터 머신(SVM) 특징 및 장단점, 활용 분야 이번 포스팅에서는 서포트 벡터 머신의 특징 및 장단점을 살펴보도록 하겠습니다. 그리고 실제 SVM이 어떤 분야에서 활용되는지도 함께 알아보겠습니다. 사실 난 SVM의 원리를 개념적으로 이해하고 정확도를 의심한 것도 사실입나다. 경계를 구분하는 정도로 얼마나 활용될 수 있을까 생각했습니다. 하지만 실제로 사용해보고 가장 생각과 다른 알고리즘이었습니다. 실제로 분류가 잘되고 활용 분야도 다양하다는 것이었습니다. 아래 어떤 특징들 때문에 SVM이 매력적인지 보시죠. SVM 매력적인 특징 SVM의 경우는 저차원이 아닌 고차원 데이터의 분류 문제에도 아주 좋은 성능을 보입니다. 고차원이 가능하다는 것은 장점이라고 할 수 있는데요. 또 SVM의 특징 상 Training error를 줄이는 방향으로 모델을 만들면 T.. 2023. 10. 27. 서포트 벡터 머신(SVM) - 주요 파리마터, 비선형 SVM, 커널 트릭(Kernal Trick) 이번 포스팅에서는 서포트 벡터 머신의 주요 파라미터와 비선형 SVM에 대해 알아보도록 하겠습니다. 비선형 SVM은 선형으로 분리할 수 없는 데이터를 분류하기 위한 SVM의 변형입니다. 비선형 SVM에서는 커널 트릭이라는 개념을 활용합니다. SVM 주요 파라미터 코스트(Cost), C값 오차 허용 정도의 파라미터. 마진 너비를 조정 C를 높이면 : training error 많이 허용하지 않음 → overfilt C를 낮추면 : training error 많이 허용 → underfit 감마(Gamma) 초평면이 아닌 커널과 관련된 파라미터. 결정 경계선의 곡률을 조정 감마 증가 : 데이터 포인트 별 허용 표준표차가 작아짐 → 데이터 차원 분리가 넓게 일어나며 결정 경계는 작고 구부러짐이 심해짐 감마 감소 .. 2023. 10. 26. 서포트 벡터 머신(SVM) - 결정 경계, soft margin vs hard margin 이번 글에서는 서비스 벡터 머신에 대해 알아보도록 하겠습니다. 영문으로는 Support Vector Machine이며 약자로 'SVM'로 주로 이야기 합니다. SVM은 분류(classification) 및 회귀(regression) 분석에 모두에 사용할 수 있습니다. 딥러닝에 나오기 전까지 생각보다 많은 분야에서 활용되었던 알고리즘이라는 것을 알고 놀랐습니다. 그러면 좀 더 자세히 들어가 보도록 하겠습니다. 『 '데이널'의 컨텐츠에 포함된 정보는? 』 서포트 벡터 머신이란우선 결론부터 말하면 서포트 벡터 머신(이하 SVM)은 쉽게 말해 결정 경계(Decision Boundary)를 만드는 모델이라고 할 수 있습니다. 그래서 분류를 하기 위해 기준 선(또는 면)을 정의하는 모델이라는 것을 알 수 있습니.. 2023. 10. 26. 나이브 베이즈(Naive Bayes) 장단점 및 종류 이번 포스팅에서는 나이브 베니즈 분류의 장단점 및 활용분야, 그리고 종류가 어떤 것들이 있는지 알아보도록 하겠습니다. 나이브 베이즈는 주어진 데이터의 분포를 사전 확률로 사용하는 모델인만큼 장단점도 유추할 수 있습니다. 만약 나이브 베이즈의 개요 및 특징 그리고 베이즈 정리, 가정, 공식 등의 지식은 아래를 참조해 주시기 바랍니다. 나이브 베이즈 개요 및 확률적 통계 모형 베이즈 정리 및 나이브 베이즈 가정,이슈,공식 장점 간단하고 빠르며 효율적인 알고리즘 - 반복적 학습보다는 사전 분포로 계산함 노이즈와 누락 데이터를 잘 처리함 - 분포에서 벗어난 데이터가 노이즈 훈련을 할 때 데이터 크기에 상관 없이 잘 동작함 예측을 위한 추정 확률을 쉽게 얻을 수 있음 다중 클래스 예측에도 사용 가능 단점 모든 특.. 2023. 10. 24. 이전 1 2 3 4 5 6 ··· 9 다음