일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- redis
- 파이썬 #python #enumerate
- 파이썬 #python #Comprehension
- 파이썬 #python #file #i/o #input #output
- 파이썬 #python #지역함수
- 연산자메서드
- Git
- aw3
- 파이썬 #python #lambda #람다
- 약수 수하기
- 파이썬 #python #모듈 #module #import #random #time #calendar #sys
- 민감 정보 관리
- 파이썬 #python #예외처리 #exception
- 사용자정의예외
- 파이썬 #python #전역변수 #지역변수 #eval
- 파이썬 #python #가변매개변수 #키워드가변매개변수 #args #kwargs
- 파이썬 #python #함수 #function
- 파이썬 #python #docstring
- jsonb
- 파이썬 #python #filter #map #reduce
- 파이썬 #python #os #os.path #glob
- docker
- 프로그래머스
- PostgreSQL
- spring boot
- 파이썬기본문법 #파이썬 #python
- EC2
- aws
- 배포
- 파이썬 #python #class #클래스 #상속
- Today
- Total
목록Machine Learning (18)
Yeonnnnny

■ 주성분 분석 (PCA, Principal Component Analysis) : 변수가 가지고 있는 정보의 손실을 최소화 하면서 변수의 차원을 축소하는 분석 기법 □ 차원 축소의 필요성 - 설명변수(feature)가 많으면 학습 속도가 느려짐 - 의미 없는 feature들로 인해서 과적합이 되거나 학습이 제대로 되지 않음 - 차원을 축소하면 데이터를 시각화로 표현하기 쉬움 □ 차원의 저주 ■ 주성분 분석의 필요성 - 데이터의 feature가 늘어날 때마다 차원은 증가함 - 차원이 증가할수록 공간의 부피가 기하 급수적으로 증가하면서 데이터의 밀도가 매우 낮아짐 - 1차원에서는 데이터의 밀도가 3/10으로 전체 약 30%를 포함 - 2차원에서는 데이터의 밀도가 1/10으로 전체 데이터의 약 10%를 포함..

■ 군집 (Clustering) - 데이터를 여러 개의 군집으로 묶는 분석 방법 - 유사한 개체들을 군집으로 그룹화하여 각 집단의 성격을 파악 ■ K-평균 군집(K-Means Clustering) - 주어진 데이터를 K개의 군집으로 묶는 알고리즘으로, means는 각 데이터로부터 그 데이터가 속한 클러스터의 중심까지의 평균거리이고 이 값을 최소화하는 것이 알고리즘의 목표 - 데이터가 연속형일 때 사용 (명목형데이터는 직선거리를 구할 수 없기 때문) □ 장단점 장점 단점 일반적 군집에서 가장 많이 활용되는 알고리즘 자료 유형이 혼합(수치, 범주)된 경우 거리 정의 등이 어려울 수 있음 추가적인 분석을 위해 사용할 수 있음 초기 군집 수 설정이 중요함 분석의 용이 결과 해석의 모호(좋은 군집을 형성했다는 보..

■ 코사인 유사도(Cosine Similarity) - 문서와 문서 간의 유사도는 일반적으로 코사인 유사도를 사용함 - 코사인 유사도는 벡터 간의 유사도를 비교할 때 벡터의 상호방향이 얼마나 유사한지에 기반함 코사인유사도 공식 - 코사인 유사도의 값은 -1≤cos(a,b)≤1의 구간의 값을 가짐 - 벡터들의 방향이 완전히 다를 경우 즉 각도가 180º일 경우에는 -1이고, 방향이 완전히 동일하면 1이며, 값이 90 º의 각일 경우(직교) 0값을 가짐 - 두개의 벡터인 A와 B에 대해서 유사도를 구하는 것은 다음과 같은 식으로 표현할 수 있음 □ 구현 - 패키지 로딩 from sklearn.metrics.pairwise import cosine_similarity - EX) 영화 장르에 대한 코사인 유사도..

■ K-Nearest Neighbors (K-최근접 이웃) - 새로운 입력 데이터를 받으면 기존 클러스터에서 모든 데이터와 유클리드 기반 거리를 측정 후 가장 많은 속성을 가진 클러스터에 할당하는 분류 알고리즘 - 학습 단계에서 학습된 데이터를 벡터 공간상에 위치시킨 후, 추론 단계에서 사로운 데이터를 같은 공간에 배치한 후 새 데이터가 어떤 카테고리에 속하는지 알기 위해서는 가까이에 있는 k개의 정답 데이터를 보고 추론 ※ 일반적으로 K의 값을 홀수로 함 (동등한 값이 발생하여 분류하기 애매한 경우가 발생하기 때문) ※ 거리 측정 시 최근접 데이터가 이상치인 경우라도 어쩔 수 없음. 데이터 전처리 과정에서 이상치 처리를 잘 해줘야 함 □ 패키지 로드 및 모델 생성 from sklearn.neighbor..

■ 앙상블 러닝(Ensemble Learning) - 주어진 자료에서 여러 개의 예측 모델을 학습한 다음, 하나의 최종 예측보델을 사용하여 정확도를 높이는 기법 - 모형은 복잡하여 설명이 어렵지만, 성능이 좋음 □ 종류 1. 보팅 (Voting) : 동일 데이터셋에 대해 여러 개의 분류기(model)를 사용하여 학습 진행 - Hard Voting : 다수결 투표를 따라감 - Soft Voting : 각 레이블의 예측 확률의 평균으로 최종 분류를 진행 (레이블 0 예측확률 평균 : 0.54, 레이블 1 예측확률 평균 : 0.46) 2. 배깅 (Bagging) - 하나의 모델을 다양하게 학습 (Bootstrap + Aggregating => Bagging) - Bootstrap은 복원 랜덤 샘플링 방식으로 ..

■ 의사결정 트리 (Decision Tree) - 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종 - 과거의 수집된 데이터들을 분석하여 이들 사이에 존재하는 패턴을 속성의 조합으로 나타내는 분류 모형 □ 의사 결정 트리의 장단점 장점 1. 인간 수준의 사고를 모방하므로 데이터를 이해하고 좋은 해석을 할 수 있을 정도로 간단한 구조를 가짐 2. 여러가지 가정을 필요로 하지 않는 비모수적인 방법이고, 이상치에 민감하지 않음 3. 데이터의 이상치나 결측치에 크게 영향을 받지 않음 4. 시각화에 용이함 단점 1. 연속형 데이터의 경우에는 비연속적인 값으로 취급하여 분리하기 때문에 모델의 정확도가 낮음 2. 훈련 데이터 셋이 바뀌면 나무의 모양도 바뀜 □ 의사 결정 트리 구조 - ..

■ 베이즈 이론(Baye's Theorem) : 경험을 쌓는 이론 : 추론 대상의 사전확률과 추가적인 정보를 기반으로 해당 대상의 사후 확률을 추론하는 통계적 방법 → P(A∩B) = P(A)P(B|A) 에서 우변을 사건 B에 관한 식인 P(A∩B)=P(B)P(A|B)로 나타낼 수 있음 → 따라서 P(A)P(B|A)= P(B)P(A|B)이며, P(B|A)에 대해 식을 정리하면 베이즈 정리 식을 유도할 수 있음. 베이즈 정리는 사전확률을 기반으로 사후 확률을 추론하는 방식이므로 경험치가 쌓일 수록 더 명확한 결론을 도출할 수 있을 것임. 이 점이 머신러닝과 유사함. 머신러닝도 과거의 경험과 패턴을 바탕으로 새로운 값에 대한 결과를 예측하기 때문. EX) 암환자 예측 - 어떤 마을 전체 사람들의 10.5%가..

■ 분류분석 (Classification Analysis) □ 정의 및 용도 - 종속변수가 범주형인 데이터에 대해 데이터의 유사성(특이성이 비슷한)이 높은 것들을 같은 종류로 분류 - 종속변수가 미리 결정된 범주 중 하나에 속할 가능성 또는 확률 예측 (분석 결과는 확률분포로 나옴) - 미래 데이터 세트에서 동일한 패턴(유사한 시퀀스, 단어 또는 감정)을 찾고자 할 때 사용 □ 종류 1. 로지스틱 회귀분석 : 종속변수가 범주형 변수일 때 사용, 시그모이드 함수 사용, 이진 분류시 가장 많이 사용됨 2. 의사결정 트리 : 나무형태의 그래프로 의사결정을 질문에 대한 Yes or No로 분기하여 데이터를 분류, 의사결정 과정을 도식화하고 시각화할 수 있는 방식임. (보통 딥러닝은 내부 의사결정구조가 매우 복잡..