티스토리 뷰
K-NN
X_train에서 새로운 관찰이 주어지면 training set에서 가장 가까운 feature 벡터가 있는 관찰을 찾는다.
차원의 저주: 추정기가 효과적이려면 인접 점 사이의 거리가 특정 값 d 보다 작아야한다.
Linear regression
선형 회귀: 모델의 잔차 제곱의 합을 가능한 작게 만들기 위해 매개변수를 조정하여 선형 모델을 데이터 셋에 맞춘다.
coefficient: 계수.
regr.coef_: 각 변수의 계수를 알 수 있음.
regr.score(X, y): Explained variance(설명된 분산). 0이면 X, y사이에 선형 관계가 없다.
차원 당 데이터 포인트가 적은 경우 관측치의 노이즈로 인해 높은 분산이 발생함.
릿지 회귀: 고차원 통계 학습의 솔루션은 회귀 계수를 0으로 줄이는 것. 무작위로 선택한 두 개의 관찰 세트는 상관 관계가 없을 가능성이 높음. 이걸 릿지 회귀라고. 알파가 클수록 편향은 높아지고 분산은 낮아짐. 알파를 선택해 누락된 오류 최소화 할 수 있음.
라소 회귀: 차원의 저주를 완화하기위해.
로지스틱 회귀: 분류에서 선형 접근 방식은 Sigmoid 또는 Logistic 피팅하는 것. 다중 분류: 1대 1 분류기 만들고 투표.
L1: L2:
SVM
서포트 벡터 머신: 두 클래스 사이의 마진을 최대화하는 평면을 만들기 위해 샘플 조합을 찾으려고 합니다.
정규화는 C 매개 변수에 의해 설정: c 값이 작으면 마진이 구분선 주변의 많은 관찰을 사용하여 계산 됨을 의미. 더 정규화. 디폴트. / c 값이 크면 구분선에 가까운 관측값에서 마진이 계산 됨을 의미. 덜 정규화. C는 데이터 샘플들이 다른 클래스에 놓이는 것을 허용하는 정도.
Controls tradeoff detween smooth decision boundary and classfying training points correctly.
커널: 클래스들이 피쳐 공간에서 항상 선형으로 분리 가능한 것은 아님. 해결책은 선형이 아니지만 대신 다항식(polynomial)일 수 있는 결정 함수를 구축하는 것. 이것은 커널 트릭을 사용하여 수행 됨. 관찰에 커널을 배치하여 결정 에너지를 생성하는 것으로 볼 수 있는. (kernel = 'poly', degree=3)
'면접' 카테고리의 다른 글
feature selection (0) | 2022.08.04 |
---|---|
SQL (0) | 2022.06.26 |
Model (0) | 2022.06.26 |
Model selection (0) | 2022.06.25 |
데이터분석전공 (0) | 2016.10.24 |
- Total
- Today
- Yesterday