티스토리 뷰

면접

feature selection

데이터조이 2022. 8. 4. 18:24

Information Value

설명: 

 

Variance Threshold

설명: 저 분산(low-variance) 피쳐 제거.

training set의 분산 확인. 분산이 0이면 모든 샘플에서 동일한 값을 갖고 있다는 뜻.

Threshold를 .8 * (1 - .8))이라고 하면 80% 넘게 동일한 값을 가지고 있는 컬럼이 제거 됨. 

 

chi2

설명: 

 

f_regression

설명: F-statistic 과 p-value를 반환하는 일변량 선형회귀 테스트. 

여러 회귀 변수에 대해 순차적으로 단일 회귀 변수의 효과를 테스트하는 빠른 선형 모델. 

Step1: 회귀 변수와 타겟 변수의 cross 상관관계는 r-regression을 이용해 계산 됨. 

r-regression: 각 피쳐와 타겟에 대한 피어슨 r(피어슨 상관계수) 계산

피어슨 상관계수(corr coef): 여러 회귀 변수의 각각의 개별 효과를 테스트하기 위한 선형 모형. feature selection 절차에서 사용되는 스코어링 기능. (공분산 / X의  표준편차 * Y의 표준편차)

공분산: (X-X의 평균)*(Y-Y의 평균). X의 편차와 Y의 편차를 곱해서 평균 낸 것. 선형관계에 대한 의존성을 말함. 모든 관계가 없다는 것을 뜻하진 않음. (https://blog.naver.com/sw4r/221025662499)

(ex. 어떤 특정 샘플 X라는 특징이 x의 평균 보다 크고, 그 샘플의 Y라는 특징이 y의 평균보다 크다면 둘 다 양수. → X가 큰 값을 가질 때 Y도 큰 값을 가진다라는 의존성을 보여줌. 이러한 상태가 되면 편차의 곱의 평균을 취하면 큰 양수 값이 나올 것 → 의존성이 크다.)

의존성이 크다: X가 증가할 때, Y도 증가, X가 감소할 때, Y도 감소하려고 하는 것.

의존성이 낮다: X가 높은 값을 가졌을 때 Y는 높을 수도, 낮을 수도 있다. 완전히 랜덤이라면 편차의 곱이 양수, 음수 다양하게 나올 것이고 그걸 평균하면 0. 

연관성 측도. 값이 범위가 커지면 커지고 응집될 수록 작음. 이를 해결하기 위해 피어슨이 표준화를 함. 

Step2: F score로 변환한 다음 p-value로 변환. 

 

f_statistic: 각 피처에 대한 F-statistic.

F통계량은 두 분산의 비율. (표본 평균 간 변동 / 표본 내 변동)

영가설은 X와 Y는 관계가 없다. 영가설을 기각할 것인지에 대한 기준을 t-통계랑 (추정된 파라미터값/표준편차(파라미터값))활용. → t 통계량으로부터 p-value 구할 수 있다. t-통계량이 클 수록 p-value작아지고 영가설 기각할 확률 높아진다. 

F-statistic은 다중의 X와 Y간 관계를 파악할 때 활용. 

분산: 데이터가 평균에서부터 얼마나 산재되어 있는지를 나타내는 수치. 값이 클 수록 산포도 크다.

F value: https://angeloyeo.github.io/2020/02/29/ANOVA.html

p_values: F-statistic과 관련된 P-value

f_classf

 

mutual_info_regression

설명:  

 

coef_

feature_importances_

 


(https://wooono.tistory.com/249)

feature selection 방법에는 filter / wrapper / embedded 이렇게 크게 세 가지가 있음. 

filter: 통계적 측정 방법을 사용해 피쳐간의 상관관계 알아냄. (information gain, chi-square test, fisher score, correlation coefficient, variance threshold)

wrapper: feature subset의 유용성 측정. (전진 선택, 후진 제거, 단계별 선택)

embedded: 내장 metric 이용해 feature subset의 유용성 측정. (lasso(L1-norm으로 제약), ridge(L2-norm으로 제약), elastic net(앞에 둘 선형 결합), select from model(Tree 기반 알고리즘))

 

https://scikit-learn.org/stable/modules/feature_selection.html#univariate-feature-selection

For regression: f_regression, mutual_info_regression

For classification: chi2, f_classif, mutual_info_classif

F-검정에 기반한 방법은 두 확률 변수간의 선형 종속 정도를 추정한다. 

반면 상호 정보 방법은 모든 종류의 통계적 종속성을 캡쳐할 수 있지만 비모수적이므로 정확한 추정을 위해 더 많은 샘플이 필요하다. 

'면접' 카테고리의 다른 글

SQL  (0) 2022.06.26
Model  (0) 2022.06.26
Model selection  (0) 2022.06.25
sklearn - K-NN, Linear, SVM  (0) 2022.06.25
데이터분석전공  (0) 2016.10.24
댓글
Total
Today
Yesterday
공지사항
최근에 올라온 글
글 보관함