일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 파이썬 #python #모듈 #module #import #random #time #calendar #sys
- 파이썬 #python #예외처리 #exception
- 파이썬 #python #docstring
- 파이썬 #python #os #os.path #glob
- 파이썬 #python #함수 #function
- jsonb
- 약수 수하기
- 민감 정보 관리
- aw3
- 파이썬 #python #file #i/o #input #output
- 배포
- Git
- 파이썬 #python #lambda #람다
- 파이썬 #python #Comprehension
- 파이썬 #python #지역함수
- aws
- spring boot
- redis
- 파이썬 #python #전역변수 #지역변수 #eval
- EC2
- 파이썬 #python #enumerate
- PostgreSQL
- 프로그래머스
- 연산자메서드
- docker
- 사용자정의예외
- 파이썬 #python #가변매개변수 #키워드가변매개변수 #args #kwargs
- 파이썬 #python #filter #map #reduce
- 파이썬기본문법 #파이썬 #python
- 파이썬 #python #class #클래스 #상속
- Today
- Total
목록Machine Learning/비지도 학습 (2)
Yeonnnnny

■ 주성분 분석 (PCA, Principal Component Analysis) : 변수가 가지고 있는 정보의 손실을 최소화 하면서 변수의 차원을 축소하는 분석 기법 □ 차원 축소의 필요성 - 설명변수(feature)가 많으면 학습 속도가 느려짐 - 의미 없는 feature들로 인해서 과적합이 되거나 학습이 제대로 되지 않음 - 차원을 축소하면 데이터를 시각화로 표현하기 쉬움 □ 차원의 저주 ■ 주성분 분석의 필요성 - 데이터의 feature가 늘어날 때마다 차원은 증가함 - 차원이 증가할수록 공간의 부피가 기하 급수적으로 증가하면서 데이터의 밀도가 매우 낮아짐 - 1차원에서는 데이터의 밀도가 3/10으로 전체 약 30%를 포함 - 2차원에서는 데이터의 밀도가 1/10으로 전체 데이터의 약 10%를 포함..

■ 군집 (Clustering) - 데이터를 여러 개의 군집으로 묶는 분석 방법 - 유사한 개체들을 군집으로 그룹화하여 각 집단의 성격을 파악 ■ K-평균 군집(K-Means Clustering) - 주어진 데이터를 K개의 군집으로 묶는 알고리즘으로, means는 각 데이터로부터 그 데이터가 속한 클러스터의 중심까지의 평균거리이고 이 값을 최소화하는 것이 알고리즘의 목표 - 데이터가 연속형일 때 사용 (명목형데이터는 직선거리를 구할 수 없기 때문) □ 장단점 장점 단점 일반적 군집에서 가장 많이 활용되는 알고리즘 자료 유형이 혼합(수치, 범주)된 경우 거리 정의 등이 어려울 수 있음 추가적인 분석을 위해 사용할 수 있음 초기 군집 수 설정이 중요함 분석의 용이 결과 해석의 모호(좋은 군집을 형성했다는 보..