티스토리 뷰
Information Value
설명:
Variance Threshold
설명: 저 분산(low-variance) 피쳐 제거.
training set의 분산 확인. 분산이 0이면 모든 샘플에서 동일한 값을 갖고 있다는 뜻.
Threshold를 .8 * (1 - .8))이라고 하면 80% 넘게 동일한 값을 가지고 있는 컬럼이 제거 됨.
chi2
설명:
f_regression
설명: F-statistic 과 p-value를 반환하는 일변량 선형회귀 테스트.
여러 회귀 변수에 대해 순차적으로 단일 회귀 변수의 효과를 테스트하는 빠른 선형 모델.
Step1: 회귀 변수와 타겟 변수의 cross 상관관계는 r-regression을 이용해 계산 됨.
r-regression: 각 피쳐와 타겟에 대한 피어슨 r(피어슨 상관계수) 계산
피어슨 상관계수(corr coef): 여러 회귀 변수의 각각의 개별 효과를 테스트하기 위한 선형 모형. feature selection 절차에서 사용되는 스코어링 기능. (공분산 / X의 표준편차 * Y의 표준편차)
공분산: (X-X의 평균)*(Y-Y의 평균). X의 편차와 Y의 편차를 곱해서 평균 낸 것. 선형관계에 대한 의존성을 말함. 모든 관계가 없다는 것을 뜻하진 않음. (https://blog.naver.com/sw4r/221025662499)
(ex. 어떤 특정 샘플 X라는 특징이 x의 평균 보다 크고, 그 샘플의 Y라는 특징이 y의 평균보다 크다면 둘 다 양수. → X가 큰 값을 가질 때 Y도 큰 값을 가진다라는 의존성을 보여줌. 이러한 상태가 되면 편차의 곱의 평균을 취하면 큰 양수 값이 나올 것 → 의존성이 크다.)
의존성이 크다: X가 증가할 때, Y도 증가, X가 감소할 때, Y도 감소하려고 하는 것.
의존성이 낮다: X가 높은 값을 가졌을 때 Y는 높을 수도, 낮을 수도 있다. 완전히 랜덤이라면 편차의 곱이 양수, 음수 다양하게 나올 것이고 그걸 평균하면 0.
연관성 측도. 값이 범위가 커지면 커지고 응집될 수록 작음. 이를 해결하기 위해 피어슨이 표준화를 함.
Step2: F score로 변환한 다음 p-value로 변환.
f_statistic: 각 피처에 대한 F-statistic.
F통계량은 두 분산의 비율. (표본 평균 간 변동 / 표본 내 변동)
영가설은 X와 Y는 관계가 없다. 영가설을 기각할 것인지에 대한 기준을 t-통계랑 (추정된 파라미터값/표준편차(파라미터값))활용. → t 통계량으로부터 p-value 구할 수 있다. t-통계량이 클 수록 p-value작아지고 영가설 기각할 확률 높아진다.
F-statistic은 다중의 X와 Y간 관계를 파악할 때 활용.
분산: 데이터가 평균에서부터 얼마나 산재되어 있는지를 나타내는 수치. 값이 클 수록 산포도 크다.
F value: https://angeloyeo.github.io/2020/02/29/ANOVA.html
p_values: F-statistic과 관련된 P-value
f_classf
mutual_info_regression
설명:
coef_
feature_importances_
(https://wooono.tistory.com/249)
feature selection 방법에는 filter / wrapper / embedded 이렇게 크게 세 가지가 있음.
filter: 통계적 측정 방법을 사용해 피쳐간의 상관관계 알아냄. (information gain, chi-square test, fisher score, correlation coefficient, variance threshold)
wrapper: feature subset의 유용성 측정. (전진 선택, 후진 제거, 단계별 선택)
embedded: 내장 metric 이용해 feature subset의 유용성 측정. (lasso(L1-norm으로 제약), ridge(L2-norm으로 제약), elastic net(앞에 둘 선형 결합), select from model(Tree 기반 알고리즘))
https://scikit-learn.org/stable/modules/feature_selection.html#univariate-feature-selection
For regression: f_regression, mutual_info_regression
For classification: chi2, f_classif, mutual_info_classif
F-검정에 기반한 방법은 두 확률 변수간의 선형 종속 정도를 추정한다.
반면 상호 정보 방법은 모든 종류의 통계적 종속성을 캡쳐할 수 있지만 비모수적이므로 정확한 추정을 위해 더 많은 샘플이 필요하다.
'면접' 카테고리의 다른 글
SQL (0) | 2022.06.26 |
---|---|
Model (0) | 2022.06.26 |
Model selection (0) | 2022.06.25 |
sklearn - K-NN, Linear, SVM (0) | 2022.06.25 |
데이터분석전공 (0) | 2016.10.24 |
- Total
- Today
- Yesterday