✅ Clustering이란
지도학습
y = f(x)에 대하여 입력변수 (X)와 출력 변수(Y)의 관계에 대하여 모델링 하는것 (Y에 대하여 예측 또는 분류) | 정답을 알려주어 학습
회귀 (Regression) : 데이터들의 특징을 기준으로 연속된 값을 예측 (결과 값은 실수형(float) 값)
분류 (Classification) : 데이터를 정해진 라벨에 따라 분류, (이진분류 / 다중분류)
비지도 학습
출력 변수(Y)가 존재하지 않고, 입력 변수(X)간의 관계에 대해 모델링 정답 라벨이 없는 데이터를 비슷한 특징끼리 군집화(Clustering)하여 결과를 예측, 지도 학습에서 적절한 특징을 찾아내기 위한 전처리 방법으로 활용되기도 함
군집분석 : 유사한 데이터끼리 그룹화
- 군집모델은 섞여 있는 데이터를 분류만 해주는 것으로 해석은 하지 않음
- 분류한다고해서 지도학습의 분류모델과 같은 기능을 하지 않음 (성능이 낮음)
군집분석 종류
- k-means clustering : 데이터를 사용자가 군집의 개수(k개)를 미리 지정하는 모델
- Hierarchical clustering (계층적 군집분석): 트리모델과 같이 나무모양으로 계층을 이루면서 형성을 해 나가는 모델
- DBSCAN : k-means clustering과는 달리 k개를 미리 설정할 필요 없이 사용하는 모델 (가장많이 활용)
- PCA : 독립변수들의 차원을 축소화
K-means clustering :
각 군집에 할당된 포인트의 평균 좌표를 보고 군집의 중심점을 업데이트 시키는 모델
- 분류되지 않은 데이터(a)에서 랜덤하게 초기 좌표 설정(b)
- 초기 좌표로 형성된 포인트에서 더 가까운 데이터를 군집으로 형성(c)
- 군집을 중점으로 포인트 업데이트(d)
- 다시 포인트와 가까운 데이터를 할당(e)
- 군집의 중심점으로 포인트를 한번 더 업데이트 후 할당이 되는 것이 바뀌지 않으면 군집 확정(f)
K-means clustering 거리측정 방식 : 점과 점사이 거리를 측정하여 할당
- 맨한탄 거리(Manhattan distance), 유클리디안 거리(Euclidean distance)측정 방식 dldyd
- 맨하탄거리 : 각 축에 대해 수직으로 이동 계산하는 거리측정 방식
- 유클리디안 거리 : 가장 짧은 거리를 계산하는 거리측정
계속 정리중
최종 완료 프로젝트
최종 완료 프로젝트는 kaggle 대출상황 예측문제를 랜덤포레스트를 사용해 모델링
'Python > 머신러닝' 카테고리의 다른 글
머신러닝 & AI 첫걸음 시작하기_4 주차 (0) | 2022.06.07 |
---|---|
머신러닝 & AI 첫걸음 시작하기_3주차 (0) | 2022.05.30 |
머신러닝 인강을 무료로 듣기 위한 여정 (0) | 2022.05.14 |