
목적: python을 이용해 특정 구분자로 구분 되어 있는 문자열에서 제일 마지막 값만 없애기. import pandas as pd df = pd.DataFrame({'cat':['건>강', '디>지>털', '화>장>품']}) # df['cat'] = df['cat'].apply(lambda x: ">".join(x.split(">")[:-1])) Before After 참고로 샘플 데이터를 저렇게 만들어서 그렇지 실제로는 '건강>건강관리>마스크', '디지털>휴대폰액세서리>휴대폰케이스>기타케이스', '화장품>스킨케어>크림' 이런식으로 되어 있는 데이터였음. 본인의 데이터가 샘플 데이터처럼 생겼고, 저 상황에서 맨 마지막 두 글자만 떼고 싶으면 '화>장>품'[:-2] 이렇게 하면 됨. Data Frame에..

가장 먼저 시각화에 필요한 라이브러리를 불러옴. # matplot import matplotlib as mpl import matplotlib.pyplot as plt # seaborn import seaborn as sns # numpy와 pandas import numpy as np import pandas as pd matplot 버전확인 방법 print(mpl.__version__) 가장 기본적인 사용법 (plt.plot()) # sample data data_dict = {'x':[1, 2, 3, 4, 5], 'y':[6, 7, 8, 9, 10], 'y2':[1, 3, 5, 7, 9]} plt.plot(data_dict['y']) # y값 plt.plot(data_dict['x'], data_d..
Information Value 설명: Variance Threshold 설명: 저 분산(low-variance) 피쳐 제거. training set의 분산 확인. 분산이 0이면 모든 샘플에서 동일한 값을 갖고 있다는 뜻. Threshold를 .8 * (1 - .8))이라고 하면 80% 넘게 동일한 값을 가지고 있는 컬럼이 제거 됨. chi2 설명: f_regression 설명: F-statistic 과 p-value를 반환하는 일변량 선형회귀 테스트. 여러 회귀 변수에 대해 순차적으로 단일 회귀 변수의 효과를 테스트하는 빠른 선형 모델. Step1: 회귀 변수와 타겟 변수의 cross 상관관계는 r-regression을 이용해 계산 됨. r-regression: 각 피쳐와 타겟에 대한 피어슨 r(피어슨..
영업일 (Business day, working day) 시작 날짜부터 끝 날짜까지 총 몇 일의 working day가 있는지 카운트 pd.bdate_range import datetime import pandas as pd holidays_list = ['2022-05-05', '2022-05-08', '2022-06-01', '2022-06-06'] start_date = datetime.datetime.strptime('2022-05-01', "%Y-%m-%d").date() end_date = datetime.datetime.strptime('2022-05-30', "%Y-%m-%d").date() print (len(pd.bdate_range(start=start_date, end=end_dat..

Python에서 날짜, 시간 데이터 다루기 설명을 위한 Data Frame 생성 import pandas as pd time_df = pd.DataFrame({ '주문번호': ['1', '2', '3', '4', '5'], '주문일자': ['2022-07-11', '2022-07-11', '2022-07-11', '2022-07-11', '2022-07-11'], '주문시간': ['9:00', '9:30', '10:00', '10:30', '11:00'], '입금확인일시': ['2022-07-11 09:10', '2022-07-11 09:40', '2022-07-11 10:10', '2022-07-11 10:40', '2022-07-11 11:10'], '출고완료일시': ['2022-07-12 09:00..
DCL: GRANT, REVOKE DDL: CREATE, ALTER, DROP DML: INSERT, UPDATE, DELETE, SELECT SELECT * FROM _TABLE_ WHERE _COLUMN_='VALUE' INSERT INTO _TABLE_ (_COLUMN_) VALUES ('VALUE') UPDATE _TABLE_ SET (_COLUMN_='VALUE') WHERE CONDITION DELETE FROM _TABLE_ WHERE CONDITION SELECT TOP 100 * FROM _TABLE_ SELECT * FROM _TABLE_ WHERE _COLUMN_ IN ('VALUE', 'VALUE') 2개의 TABLE JOIN SELECT A.COL, B.COL FROM A INNE..
feature selcetion Variance Threshold: 입력 feature 가 상수임을 판단하는 기법이다. 출력의 변화와 비교하여 거의 변화하지 않는 입력 변수는 출력을 예측하는 입력 변수 군에서 제외. F-regression: 입력 변수와 출력 변수간의 correlation 기반의 regression 을 수행한 후, F-test 를 통해 입력 변수의 중요도를 판단하는 기법이다. 정규화를 위해 p-value 로 변환하고, 이를 통해 각 입력 변수들과 출력 변수의 상관도를 분석한다. (F-test: 두 표본의 분산에 대한 차이가 통계적으로 유의한가를 판별. ) Mutual Information regression: 상호 정보. Random Forest: 중요한 변수. Correlation pr..
Score, Cross-validated Scores Score: 새로운 데이터에 대한 적합(예측) 품질은 판단할 수 있는 점수 방법. Cross-validation generators Cross-validation: 교차 검증. 데이터를 훈련 세트와 테스트 세트로 반복적으로 분할하고 훈련 세트를 통해 훈련하고 테스트 세트를 기반으로 점수 계산. (학습/테스트 색인 목록 생성 기능 제공함.) Grid-search and cross-validated estimators 매개변수 그리드에서 추정기를 학습 시키는 동안 점수를 계산하고 교차 검증 점수를 최대화하기 위해 매개변수를 선택하는 객체 제공함. 기본적으로 5중 교차 검증. 최적의 하이퍼파라미터를 찾는 방법. 두 개의 교차 검증 루프가 병렬로 수행 됨. ..

K-NN X_train에서 새로운 관찰이 주어지면 training set에서 가장 가까운 feature 벡터가 있는 관찰을 찾는다. 차원의 저주: 추정기가 효과적이려면 인접 점 사이의 거리가 특정 값 d 보다 작아야한다. Linear regression 선형 회귀: 모델의 잔차 제곱의 합을 가능한 작게 만들기 위해 매개변수를 조정하여 선형 모델을 데이터 셋에 맞춘다. coefficient: 계수. regr.coef_: 각 변수의 계수를 알 수 있음. regr.score(X, y): Explained variance(설명된 분산). 0이면 X, y사이에 선형 관계가 없다. 차원 당 데이터 포인트가 적은 경우 관측치의 노이즈로 인해 높은 분산이 발생함. 릿지 회귀: 고차원 통계 학습의 솔루션은 회귀 계수를 ..
import numpy as np import pandas as pd from sklearn.metrics import r2_score, mean_squared_error def r2_rmse( g ): r2 = r2_score( g['Actual'], g['Predicted'] ) rmse = np.sqrt( mean_squared_error( g['Actual'], g['Predicted'] ) ) return pd.Series( dict( r2 = r2, rmse = rmse ) ) your_df.groupby( 'Type' ).apply( r2_rmse ).reset_index() data frame에서 group by 후 custom된 집계함수 사용
- Total
- Today
- Yesterday