티스토리 뷰

면접

sklearn - K-NN, Linear, SVM

데이터조이 2022. 6. 25. 21:10

K-NN

X_train에서 새로운 관찰이 주어지면 training set에서 가장 가까운 feature 벡터가 있는 관찰을 찾는다.

차원의 저주: 추정기가 효과적이려면 인접 점 사이의 거리가 특정 값 d 보다 작아야한다. 

 

Linear regression

선형 회귀: 모델의 잔차 제곱의 합을 가능한 작게 만들기 위해 매개변수를 조정하여 선형 모델을 데이터 셋에 맞춘다. 

coefficient: 계수.

regr.coef_: 각 변수의 계수를 알 수 있음.

regr.score(X, y): Explained variance(설명된 분산). 0이면 X, y사이에 선형 관계가 없다.

차원 당 데이터 포인트가 적은 경우 관측치의 노이즈로 인해 높은 분산이 발생함.

릿지 회귀: 고차원 통계 학습의 솔루션은 회귀 계수를 0으로 줄이는 것. 무작위로 선택한 두 개의 관찰 세트는 상관 관계가 없을 가능성이 높음. 이걸 릿지 회귀라고. 알파가 클수록 편향은 높아지고 분산은 낮아짐. 알파를 선택해 누락된 오류 최소화 할 수 있음. 

라소 회귀: 차원의 저주를 완화하기위해. 

로지스틱 회귀: 분류에서 선형 접근 방식은 Sigmoid 또는 Logistic 피팅하는 것. 다중 분류: 1대 1 분류기 만들고 투표.

L1: L2:

SVM

서포트 벡터 머신: 두 클래스 사이의 마진을 최대화하는 평면을 만들기 위해 샘플 조합을 찾으려고 합니다.

정규화는 C 매개 변수에 의해 설정: c 값이 작으면 마진이 구분선 주변의 많은 관찰을 사용하여 계산 됨을 의미. 더 정규화. 디폴트. / c 값이 크면 구분선에 가까운 관측값에서 마진이 계산 됨을 의미. 덜 정규화.  C는 데이터 샘플들이 다른 클래스에 놓이는 것을 허용하는 정도.

Controls tradeoff detween smooth decision boundary and classfying training points correctly. 

커널: 클래스들이 피쳐 공간에서 항상 선형으로 분리 가능한 것은 아님. 해결책은 선형이 아니지만 대신 다항식(polynomial)일 수 있는 결정 함수를 구축하는 것. 이것은 커널 트릭을 사용하여 수행 됨. 관찰에 커널을 배치하여 결정 에너지를 생성하는 것으로 볼 수 있는. (kernel = 'poly', degree=3)

'면접' 카테고리의 다른 글

feature selection  (0) 2022.08.04
SQL  (0) 2022.06.26
Model  (0) 2022.06.26
Model selection  (0) 2022.06.25
데이터분석전공  (0) 2016.10.24
댓글
Total
Today
Yesterday
공지사항
최근에 올라온 글
글 보관함