머신러닝 & AI 첫걸음 시작하기_마지막

 Clustering이란

지도학습

y = f(x)에 대하여 입력변수 (X)와 출력 변수(Y)의 관계에 대하여 모델링 하는것  (Y에 대하여 예측 또는 분류)  | 정답을 알려주어 학습

회귀 (Regression) : 데이터들의 특징을 기준으로 연속된 값을 예측 (결과 값은 실수형(float) 값)

분류 (Classification) : 데이터를 정해진 라벨에 따라 분류, (이진분류 / 다중분류)


 

비지도 학습 

출력 변수(Y)가 존재하지 않고, 입력 변수(X)간의 관계에 대해 모델링 정답 라벨이 없는 데이터를 비슷한 특징끼리 군집화(Clustering)하여 결과를 예측, 지도 학습에서 적절한 특징을 찾아내기 위한 전처리 방법으로 활용되기도 함

 

군집분석 : 유사한 데이터끼리 그룹화

  • 군집모델은 섞여 있는 데이터를 분류만 해주는 것으로 해석은 하지 않음
  • 분류한다고해서 지도학습의 분류모델과 같은 기능을 하지 않음 (성능이 낮음)

 

군집분석 종류

  • k-means clustering : 데이터를 사용자가 군집의 개수(k개)를 미리 지정하는 모델
  • Hierarchical clustering (계층적 군집분석):  트리모델과 같이 나무모양으로 계층을 이루면서 형성을 해 나가는 모델
  • DBSCAN : k-means clustering과는 달리 k개를 미리 설정할 필요 없이 사용하는 모델 (가장많이 활용)

  • PCA : 독립변수들의 차원을 축소화
 

K-means clustering :

각 군집에 할당된 포인트의 평균 좌표를 보고 군집의 중심점을 업데이트 시키는 모델

  • 분류되지 않은 데이터(a)에서 랜덤하게 초기 좌표 설정(b)
  • 초기 좌표로 형성된 포인트에서 더 가까운 데이터를 군집으로 형성(c)
  • 군집을 중점으로 포인트 업데이트(d)
  • 다시 포인트와 가까운 데이터를 할당(e) 
  • 군집의 중심점으로 포인트를 한번 더 업데이트 후 할당이 되는 것이 바뀌지 않으면 군집 확정(f)

K-means clustering 거리측정 방식 : 점과 점사이 거리를 측정하여 할당

  • 맨한탄 거리(Manhattan distance), 유클리디안 거리(Euclidean distance)측정 방식 dldyd
  • 맨하탄거리 : 각 축에 대해 수직으로 이동 계산하는 거리측정 방식
  • 유클리디안 거리 : 가장 짧은 거리를 계산하는 거리측정

계속 정리중


최종 완료 프로젝트 

최종 완료 프로젝트는 kaggle 대출상황 예측문제를 랜덤포레스트를 사용해 모델링

 

  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유
  • 카카오스토리 공유