분류 전체보기270 클러스터링 - 계층적 군집화 동작 원리, 장단점 이번 포스팅은 클러스트링 중에 첫 번째로 계층적 군집화에 대해 알아보도록 하겠습니다. 계층적 군집이란 용어 그대로 순차적으로 계층을 만들면서 그룹을 만드는 방법입니다. 클러스트링 방법 중에 빈번하게 사용되는 알고리즘은 아니지만 특정 업무에서는 활용이 가능한 방법입니다. 계층적 군집화(Hierarchical Clustering) Hierarchical Clustering은 계층적 트리 모형을 이용하여 개별 개체들을 순차적, 계층적으로 유사한 개체끼리 군집과 통합을 합니다. 장점 중에 하나로 덴드로그램(Dentrogram)을 통해 시각화 가능합니다. Dendrogram : 개체/군집들이 결합되는 순서를 나타내는 트리형태의 구조로 시각화 표현 트리의 높낮이가 유사도 거리를 의미함(낮을수록 높음) 군집(clus.. 2023. 10. 13. 클러스터링(clustering) 개념 - 군집분석 사례, 계층적 vs 분할적 군집 이번 포스팅은 클러스터링 알고리즘에 대해 알아보도록 하겠습니다. 클러스터링은 군집화 한다고 말처럼 대상을 그룹핑하는 알고리즘이라고 생각하면 쉽습니다. 그렇다면 어떻게 그룹을 만들어야 좋은 알고리즘이 될까요? 그 기준과 사례를 살펴보도록 하겠습니다. Clustering 란? 클러스터링은 레이블(Y)이 지정 되어있지 않은 데이터를 그룹핑하는 분석 알고리즘입니다. 레이블이 없다는 이야기는 지도 학습이 아니라 비지도 학습이라는 이야기입니다. 데이터들의 특성을 고려해 데이터 집단(클러스터)을 정의하고 데이터 집단의 대표할 수 있는 중심점을 찾는 방식입니다. 여기서 클러스터는 비슷한 특성을 가진 데이터(객체)들의 집단이라고 할 수 있습니다. Clustering 기준 첫째, 동일한 집단에 소속된 관측치들은 서로 유사.. 2023. 10. 12. 모수 vs 비모수 모델 - 파라미터 vs 하이퍼파라미터 이번 포스팅에서는 모수와 비모수에 대해 알아보도록 하겠습니다. 통계학이나 머신러닝을 공부하다 보면 모수, 비모수라는 단어가 나옵니다. 그런데 이 단어의 의미를 어렴풋이 짐작할 뿐 정확하게 따져보지 않는데요. 이 개념을 알아둔다면 우리가 사용하는 모델을 더 잘 이해하는데 도움이 될 거라 생각합니다. 통계적 의미 모수와 비모수에 대해 말하기 전에 먼저 확률분포에 대해 알고 있어야 합니다. 확률분포는 샘플(관측치)들이 가질 수 있는 수치 값들의 표현입니다. 보통 0과 1사이의 확률로 표현할 때 이 확률 값들의 패턴을 봅니다. 그리고 확률함수는 샘플 데이터가 가질 수 있는 값들을 확률로 표현하기 위해서는 대응 함수를 말합니다. 이산확률함수는 확률질량함수(PMF)로 표현 연속확률함수는 확률밀도함수(PDF)로 표현.. 2023. 10. 12. 차원 축소 - 특잇값 분해(SVD) 및 PCA 관계 차원 축소의 마지막 포스팅으로 특잇값 분해(SVD)에 대해 알아보도록 하겠습니다. SVD는 머신러닝 뿐만아니라 딥러닝에서도 사용하는 차원 축소 기법입니다. 알려지기로는 신호 처리와 통계학 분에에 자주 사용된다고 합니다. 개인적인 경험으로는 NLP(자연어 처리, Natural Language Processing)를 다룰때 텍스트를 통계 기반 기법으로 처리할 때 사용했습니다. 특잇값 분해(SVD, Singular Value Decomposition) 행렬을 특정한 구로로 분해하는 방식으로 고유값 분해처럼 행렬을 대각화하는 방법 중에 하나입니다. 어떤 nxm행렬 A는 다음과 같은 형태의 세 가지 행렬의 곱으로 분해 할 수 있습니다. 수식 𝐴=𝑈Σ𝑉^𝑇 와 같습니다. 𝑈 =mxm 직교행렬 Σ=mxn 대각행렬 V.. 2023. 10. 11. 차원 축소 - t-SNE의 특징 및 PCA와 차이점 이번에는 차원 축소 기법 중 t-SNE에 대해 알아보도록 하겠습니다. t-분포 확률적 임베딩이라고 우리말로 번역할 수 있는데요. 이 알고리즘을 보통은 '티스니'라고 읽습니다. 하지만 '티-에스엔이'라고 그대로 읽는 사람도 있습니다. 읽는 방법은 분석가 마다 편하게 부르기 때문에 너무 규정하지 않는게 좋습니다. 이 알고리즘은 2002년 샘 로이스(Sam Rowise)와 제프리 힌튼에 의해 개발되었는데요. t-SNE는 고차원 데이터에 적합하다고 알려져 있습니다. 특히 2, 3차원으로 줄여 가시화하는데 유용하죠. t-SNE (t-distributed Stochastic Neighbor Embedding)t-SNE는 t-분포를 활용해 고차원의 공간에 존재하는 data x의 neighbor 간의 distan.. 2023. 10. 11. 차원 축소 - PCA(주성분 분석), Explained Variance Ratio 이번 포스팅에서는 주성분 분석(PCA)에 대해 알아보도록 하겠습니다. 주성분 분석은 차원 축소 방법 중에 가장 많이 사용되는 기법입니다. 그만큼 필수적으로 알아야 할 알고리즘 입니다. <ins class="adsbygoogle" style="display: inline-block; width: 300px; height: 250px;" data-ad-client="ca.. 2023. 10. 10. 차원축소 - 투영과 매니폴드(manifold) 학습은 어떻게 다른가? 이번 포스팅에서는 투영(projection)과 매니폴드 학습(manifold learning)에 대해 알아보겠습니다. 차원 축소를 설명할 때 이 두개의 개념은 빠질수 없는 원리입니다. 이 두개의 개념이 차원을 추출하는 원리의 근간입니다. 투영(projection) 투영(projection)이란 물체의 그림자를 어떤 물체 위에 비추는 일 또는 그 비친 그림자를 말합니다. 어떤 물체든 그림자는 2차원으로 표현이 될 수 있다는 원리입니다. 용어는 투영, 사영 등 여러가지로 불려집니다. 우리가 분석하려는 대부분의 훈련 샘플은 고차원 공간 안의 있습니다. 그리고 그 그림자가 저차원 부분 공간(subspace)에 놓여 있다고 할 수 있습니다. 이런 경우 투영을 통해 데이터셋의 차원을 줄일 수 있습니다. 물론 모든 .. 2023. 10. 10. 리눅스(Linux)의 특징 및 디렉토리 구조 - 디스크 용량, 디렉토리 용량 확인 이번 포스팅에서는 리눅스의 특징에 대해 알아보도록 하겠습니다. 리눅스의 특징은 대화형 시스템, 다중 사용자 시스템, 멀티태스킹 시스템, 높은 이식성 및 확장성, 계층적 파일 시스템 등이 있습니다. 대화형 시스템 한번은 사용해 본적 있는 윈도우에서 '명령 프롬프트' 프로그램에서 하는 방식을 말합니다. 정확히는 명령어 기반 사용자 인터페이스(CLI, Command Line Interface)라고합니다. 이를 통해 사용자와 리눅스가 대화한다고 해서 대화형 시스템입니다. 즉, 사용자가 명령어를 입력하면 유닉스는 명령의 결과를 화면에 출력합니다. 다중 사용자 시스템 다중 사용자라는 것은 네트워크를 통해 여러 사람이 같은 컴퓨터에 동시에 접속해서 작업을 할 수 있는 시스템이라는 말입니다. 예를 들어 같은 시간에 계.. 2023. 10. 7. [머신러닝] Feature Selection 방법 - Filter, Wrapper, Embedded 이번 포스팅에서는 Feature Selection(차원 선택)에 대해 살펴 보겠습니다. 변수를 제거한다고 해서 Feature removal이라고도 합니다. 해당 도메인의 비즈니스를 잘 알면 분석가의 감으로 변수 선택도 가능할 것입니다. 그러나 특성이 너무 많을 경우는 기계적인 방법이 필요합니다. 예를 들어, 자동자 회사에서 부품, 센서 등의 정보들은 정말 많습니다. <!-- 디스플레이_고정형_300x250 .. 2023. 10. 6. 이전 1 ··· 24 25 26 27 28 29 30 다음