feature selection

티스토리 뷰

면접

feature selection

데이터조이 2022. 8. 4. 18:24

Information Value

설명:

Variance Threshold

설명: 저 분산(low-variance) 피쳐 제거.

training set의 분산 확인. 분산이 0이면 모든 샘플에서 동일한 값을 갖고 있다는 뜻.

Threshold를 .8 * (1 - .8))이라고 하면 80% 넘게 동일한 값을 가지고 있는 컬럼이 제거 됨.

chi2

설명:

f_regression

설명: F-statistic 과 p-value를 반환하는 일변량 선형회귀 테스트.

여러 회귀 변수에 대해 순차적으로 단일 회귀 변수의 효과를 테스트하는 빠른 선형 모델.

Step1: 회귀 변수와 타겟 변수의 cross 상관관계는 r-regression을 이용해 계산 됨.

r-regression: 각 피쳐와 타겟에 대한 피어슨 r(피어슨 상관계수) 계산

피어슨 상관계수(corr coef): 여러 회귀 변수의 각각의 개별 효과를 테스트하기 위한 선형 모형. feature selection 절차에서 사용되는 스코어링 기능. (공분산 / X의 표준편차 * Y의 표준편차)

공분산: (X-X의 평균)*(Y-Y의 평균). X의 편차와 Y의 편차를 곱해서 평균 낸 것. 선형관계에 대한 의존성을 말함. 모든 관계가 없다는 것을 뜻하진 않음. (https://blog.naver.com/sw4r/221025662499)

(ex. 어떤 특정 샘플 X라는 특징이 x의 평균 보다 크고, 그 샘플의 Y라는 특징이 y의 평균보다 크다면 둘 다 양수. → X가 큰 값을 가질 때 Y도 큰 값을 가진다라는 의존성을 보여줌. 이러한 상태가 되면 편차의 곱의 평균을 취하면 큰 양수 값이 나올 것 → 의존성이 크다.)

의존성이 크다: X가 증가할 때, Y도 증가, X가 감소할 때, Y도 감소하려고 하는 것.

의존성이 낮다: X가 높은 값을 가졌을 때 Y는 높을 수도, 낮을 수도 있다. 완전히 랜덤이라면 편차의 곱이 양수, 음수 다양하게 나올 것이고 그걸 평균하면 0.

연관성 측도. 값이 범위가 커지면 커지고 응집될 수록 작음. 이를 해결하기 위해 피어슨이 표준화를 함.

Step2: F score로 변환한 다음 p-value로 변환.

f_statistic: 각 피처에 대한 F-statistic.

F통계량은 두 분산의 비율. (표본 평균 간 변동 / 표본 내 변동)

영가설은 X와 Y는 관계가 없다. 영가설을 기각할 것인지에 대한 기준을 t-통계랑 (추정된 파라미터값/표준편차(파라미터값))활용. → t 통계량으로부터 p-value 구할 수 있다. t-통계량이 클 수록 p-value작아지고 영가설 기각할 확률 높아진다.

F-statistic은 다중의 X와 Y간 관계를 파악할 때 활용.

분산: 데이터가 평균에서부터 얼마나 산재되어 있는지를 나타내는 수치. 값이 클 수록 산포도 크다.

F value: https://angeloyeo.github.io/2020/02/29/ANOVA.html

p_values: F-statistic과 관련된 P-value

f_classf

mutual_info_regression

설명:

coef_

feature_importances_

(https://wooono.tistory.com/249)

feature selection 방법에는 filter / wrapper / embedded 이렇게 크게 세 가지가 있음.

filter: 통계적 측정 방법을 사용해 피쳐간의 상관관계 알아냄. (information gain, chi-square test, fisher score, correlation coefficient, variance threshold)

wrapper: feature subset의 유용성 측정. (전진 선택, 후진 제거, 단계별 선택)

embedded: 내장 metric 이용해 feature subset의 유용성 측정. (lasso(L1-norm으로 제약), ridge(L2-norm으로 제약), elastic net(앞에 둘 선형 결합), select from model(Tree 기반 알고리즘))

https://scikit-learn.org/stable/modules/feature_selection.html#univariate-feature-selection

For regression: f_regression, mutual_info_regression

For classification: chi2, f_classif, mutual_info_classif

F-검정에 기반한 방법은 두 확률 변수간의 선형 종속 정도를 추정한다.

반면 상호 정보 방법은 모든 종류의 통계적 종속성을 캡쳐할 수 있지만 비모수적이므로 정확한 추정을 위해 더 많은 샘플이 필요하다.

저작자표시

'면접' 카테고리의 다른 글

SQL (0)	2022.06.26
Model (0)	2022.06.26
Model selection (0)	2022.06.25
sklearn - K-NN, Linear, SVM (0)	2022.06.25
데이터분석전공 (0)	2016.10.24

Total

Today

Yesterday

공지사항

최근에 올라온 글

글 보관함

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터조이

티스토리 뷰

feature selection

'면접' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역