Information Value 설명: Variance Threshold 설명: 저 분산(low-variance) 피쳐 제거. training set의 분산 확인. 분산이 0이면 모든 샘플에서 동일한 값을 갖고 있다는 뜻. Threshold를 .8 * (1 - .8))이라고 하면 80% 넘게 동일한 값을 가지고 있는 컬럼이 제거 됨. chi2 설명: f_regression 설명: F-statistic 과 p-value를 반환하는 일변량 선형회귀 테스트. 여러 회귀 변수에 대해 순차적으로 단일 회귀 변수의 효과를 테스트하는 빠른 선형 모델. Step1: 회귀 변수와 타겟 변수의 cross 상관관계는 r-regression을 이용해 계산 됨. r-regression: 각 피쳐와 타겟에 대한 피어슨 r(피어슨..
DCL: GRANT, REVOKE DDL: CREATE, ALTER, DROP DML: INSERT, UPDATE, DELETE, SELECT SELECT * FROM _TABLE_ WHERE _COLUMN_='VALUE' INSERT INTO _TABLE_ (_COLUMN_) VALUES ('VALUE') UPDATE _TABLE_ SET (_COLUMN_='VALUE') WHERE CONDITION DELETE FROM _TABLE_ WHERE CONDITION SELECT TOP 100 * FROM _TABLE_ SELECT * FROM _TABLE_ WHERE _COLUMN_ IN ('VALUE', 'VALUE') 2개의 TABLE JOIN SELECT A.COL, B.COL FROM A INNE..
feature selcetion Variance Threshold: 입력 feature 가 상수임을 판단하는 기법이다. 출력의 변화와 비교하여 거의 변화하지 않는 입력 변수는 출력을 예측하는 입력 변수 군에서 제외. F-regression: 입력 변수와 출력 변수간의 correlation 기반의 regression 을 수행한 후, F-test 를 통해 입력 변수의 중요도를 판단하는 기법이다. 정규화를 위해 p-value 로 변환하고, 이를 통해 각 입력 변수들과 출력 변수의 상관도를 분석한다. (F-test: 두 표본의 분산에 대한 차이가 통계적으로 유의한가를 판별. ) Mutual Information regression: 상호 정보. Random Forest: 중요한 변수. Correlation pr..
Score, Cross-validated Scores Score: 새로운 데이터에 대한 적합(예측) 품질은 판단할 수 있는 점수 방법. Cross-validation generators Cross-validation: 교차 검증. 데이터를 훈련 세트와 테스트 세트로 반복적으로 분할하고 훈련 세트를 통해 훈련하고 테스트 세트를 기반으로 점수 계산. (학습/테스트 색인 목록 생성 기능 제공함.) Grid-search and cross-validated estimators 매개변수 그리드에서 추정기를 학습 시키는 동안 점수를 계산하고 교차 검증 점수를 최대화하기 위해 매개변수를 선택하는 객체 제공함. 기본적으로 5중 교차 검증. 최적의 하이퍼파라미터를 찾는 방법. 두 개의 교차 검증 루프가 병렬로 수행 됨. ..
K-NN X_train에서 새로운 관찰이 주어지면 training set에서 가장 가까운 feature 벡터가 있는 관찰을 찾는다. 차원의 저주: 추정기가 효과적이려면 인접 점 사이의 거리가 특정 값 d 보다 작아야한다. Linear regression 선형 회귀: 모델의 잔차 제곱의 합을 가능한 작게 만들기 위해 매개변수를 조정하여 선형 모델을 데이터 셋에 맞춘다. coefficient: 계수. regr.coef_: 각 변수의 계수를 알 수 있음. regr.score(X, y): Explained variance(설명된 분산). 0이면 X, y사이에 선형 관계가 없다. 차원 당 데이터 포인트가 적은 경우 관측치의 노이즈로 인해 높은 분산이 발생함. 릿지 회귀: 고차원 통계 학습의 솔루션은 회귀 계수를 ..
- Total
- Today
- Yesterday