⛺ 𝗕𝗼𝗼𝘁 𝗖𝗮𝗺𝗽/멋쟁이사자처럼 AI 스쿨 6기
[TIL] Day 40 - 정규표현식, 파일 입출력
40일차 파일 입출력 정규 표현식 +, ?, * . \s \a \w [], (), | 예외 처리 try - except assert Error 파일 시스템 기초 RAM ROM DISK working directory, path, directory 파일 입출력 r: 읽기 w: 덮어 쓰기 a: append 설계하기 최근에 추천한 음식 기억 최근에 추천한 음식 제외하고 추천 최근에 추천한 음식 파일로 저장 단위 테스트 리팩토링
[TIL] Day 39 - ML, 평가 지표
39일차 ML DecisionTreeRegressor LinearRegressor RandomForestRegressor GradientBoostingRegressor ExtraTreesRegressor XGBRegressor LGBMRegressor CatBoostRegressor 피처 엔지니어링 (특성 공학) 알고리즘 특징 및 이론 xgboost, lightgbm, catboost install gradient hyper parameter 혼동행렬 True 정답 맞춤 False 정답 틀림 positive 모델의 예측값이 True 였을 때 negative 모델의 예측값이 False 였을 때 Precision (positive 중에 진짜 positive) 스팸 메일 검출의 경우 Recall (실제 값 중..
[TIL] Day 38 - ML
38일차 Feature Engineering mode, median 으로 결측치 대체하기 fillna() 가 series 로 들어오는 매개변수로 알아서 매핑해서 결측치를 대체한다. 수치형 변수 범주형으로 변경 유니폼 값에 다항식 전개 취하기 로그1p 파생변수 만들기 리스트 extend df.get_dummies() 피터 중요도 시각화하기 r2_score cross_val_predict metric 구하기 GradientBoosting Tree learning_rate 경사에 따른 학습도 (약간 건너띄는 느낌) n_estimator 트리의 갯수 익명화된 데이터 다루기 값이 하나뿐인 열 제거하기 nunique() 이상치 잡아내기 부스팅 배깅 lightgbm, xgboost, catboost 회고 장마.. 여..
[TIL] Day 35, 36, 37 - Tableau, ML
35/36일차 Tableau 35일은 결석 🥹 지도 맵 그려보기 테이블이랑 지도 맵 매핑 데이터 해석기 사용 태블로에서 간단한 데이터 전처리 동작을 이용해서 인터렉티브 대시보드 만들기 필터를 활용해서 그래프 필터링하기 매개변수 만들기 계산된 필드 만들기 특정값 그래프 색 변경하기 서식 지정하기 버튼 선택해서 특정 카테고리값 그래프 확인하기 37일차 ML StandardScaler MinMaxScaler RobustScaler 각각 hist 그려보기 분포는 같으나, x 값은 다르다. tree 계열 모델에서는 큰 성능을 내지 못하나, 다른 알고리즘에서는 스케일링으로 정확도를 높일 수 있다. 스케일링된 값에 log1p 적용하기 hist로 분포 살펴보기 음수값이 있어도 로그를 취해도 되는가? -> 오류가 있음 ..
[TIL] Day 34 - ML, Loss Fuction, log
34일차 ML datetime.dt.year 로그를 취하는 이유 값이 너무 커지는 것을 막기 위해 그래프를 비교적 완만하게 만들어 정규분포의 형태에 가깝게 만들 수 있게 된다. 첨도와 왜도가 낮아진다. 로그에 취한 값을 다시 되돌리려면? -> e^(취한값) - 1 np.log1p np.expm1 kde 그래프 커널 밀도 그래프 커널 함수를 이용한 밀도 추정의 방법 밀도를 추정한다는 것은 확률밀도함수를 그려보겠다는 것 로그를 취해서 학습을 하고 나온 값은 다시 지수를 취해서 돌려놓는다. 코로나 데이터를 보면 월을 사용하지 않고, 연도-월을 이용 각 월마다의 추이는 같지만, 연도를 기준으로 해서 값이 배나 차이가 나기 떄문 월마다의 영향력이 있는게 아니라 연도가 더 쏀 느낌 (?) X_train, y_tra..
[TIL] Day 32, 33 - ML, RandomForest
32일차 ML 타이타닉 데이터 전처리 test, train 데이터 불러오기 pd.concat() 해서 전처리할수도, 근데 이때는 reset_index(drop) 파생변수 만들기 모델링할 때는 결측치 x, 범주형 x 따라서 One-Hot Encoding이 필요함 series.map() series.str display() 를 이용하면 연달아서 주피터 노트북에서 출력 가능 pd.get_dummies() 알아서 원핫인코딩 근데 그만큼 컬럼이 늘어난다. 이때, train과 test의 컬럼 개수 주의 (다르면 안된다.) np.nan == np.nan 하면 False 나옴 (?) pd.isnan(np.nan) 해야지 True 나옴 따라서 np.nan 인지 확인할 떄는 pd.isnan을 사용할 것 X_train, X..