⛺ 𝗕𝗼𝗼𝘁 𝗖𝗮𝗺𝗽

    [TIL] Day 32, 33 - ML, RandomForest

    32일차 ML 타이타닉 데이터 전처리 test, train 데이터 불러오기 pd.concat() 해서 전처리할수도, 근데 이때는 reset_index(drop) 파생변수 만들기 모델링할 때는 결측치 x, 범주형 x 따라서 One-Hot Encoding이 필요함 series.map() series.str display() 를 이용하면 연달아서 주피터 노트북에서 출력 가능 pd.get_dummies() 알아서 원핫인코딩 근데 그만큼 컬럼이 늘어난다. 이때, train과 test의 컬럼 개수 주의 (다르면 안된다.) np.nan == np.nan 하면 False 나옴 (?) pd.isnan(np.nan) 해야지 True 나옴 따라서 np.nan 인지 확인할 떄는 pd.isnan을 사용할 것 X_train, X..

    [TIL] Day 31 - Tableau

    31일차 Tableau Tableau Public 다운로드 필드명 != 원격필드명 데이터 원본 보기에서 데이터 수정 가능 숨기기 null 값 헤더 제거 필터 추가하기 타입 변경하기 데이터 해석기로 행병합 제거 wide to long (pivot table) 새 데이터 원본으로 데이터 새로 가져오기 필터를 이용해서 필터링 라이브 연결, 추출 연결 불연속형, 연속형 뷰, 마크 DATETRUCT(), DATEPART() 이중 축 FIRST(), LAST() FIXED{} 회고 태블로 정말 재미있는 또 하나의 세상이더만요 그러나.. 늘 그렇듯이 저장을 자주 해야합니다.. 오류 떠서 강제 종료되면 이때까지 하던 게 다 날아가더라구요 오늘 이 사실을 알게 되었어요 사실 알고싶진 않았어요 알게될 거라고 생각도 못했어..

    [TIL] Day 30 - 테스트 자동화/주도개발

    30일차 테스트 자동화 pytest pytest-watch _test 가 붙은 파일들의 test_ 가 붙은 함수들을 찾아 모두 호출 테스트 코드를 가지고 있으면 조금 더 과감하게 코딩을 할 수 있게 된다. __name__ __main__ 파일의 이름 actual, expected assert 데이터 프레임이 같은지 확인할 때는 df.eq(df2).all(axis=None) 테스트 주도개발 테스트를 할 때 텀을 타이트하게 잡는다. (코딩이 익숙하지 않을수록) 무작정 코딩을 하는 게 아니라 우선 테스트를 만들어 본다. 테스트는 보통 다른 곳에 여파가 갔는지 아닌지 확인하기 위해서 모든 테스트를 돌린다. 파일관리는 나란히 둘때도 패키지로 둘 때도 테스트를 만들어보면서 그에 맞는 모듈을 짜서 수행해본다. 조금씩..

    [TIL] Day 29 - ML 교차검증, GridSearch, RandomSearch

    29일차 ML 교차 검증 (Cross Validation) GridSearch RandomSearch 위 개념들 잘 알아두자.. MAE 평균 절대 오차 MAPE 평균 절대비 오차 MSE 평균 제곱 오차 RMSE 평균 제곱근 오차 항상 shape로 데이터 개수 확인하기 분류로는 수치형 데이터 모두를 예측할 수 있다. 타겟으로 예측할 수치형 컬럼을 선택한다. train 예측값이 채워져있는 df test 예측값이 비워져있는(or 무의미한) df .remove()는 None 반환 train, test 만들기 from sklearn.tree import DecisionTreeRegressor from sklearn.model_selection import cross_val_predict cv, n_jobs, ve..

    [TIL] Day 28 - ML

    28일차 머신러닝 변수명명 대문자는 행렬 소문자는 벡터 ML 알고리즘 종류 지도 : 정답 유 비지도 : 정답 무 강화 : 훈련 지도학습 분류 회귀 분류 (Classification) train, test 로 나눠줘야한다. train에서 X_train, y_train 뽑기 test에서 X_test, y_test 뽑기 model.fit(), model.score() max_depth: 최대 depth 개수, max_features: 해당 비율가지고 모델 돌림 model.predict() gini 계수 (순도) plot_tree(model, filled, fontsize, feature_names) model.feature_importances_ nan 제거하기도 안하기도 (안할 때는 그 자체가 데이터가 될 ..

    [TIL] Day 25, 26, 27 - Mid, ML 개요

    25, 26일차 미드 프로젝트 27일차 머신러닝 개요 Scikit-Learn ml 프레임워크 중에 가장 많이 쓰고 유명한 프레임워크 classification regression clustering dimensionality reduction model selection preprocessing Tensorflow XGBoost Keras PyTorch LightGBM 머신러닝 지도학습: 타겟 유 비지도학습: 타겟 무 강화학습: 훈련 인공지능 > 머신러닝 > 딥러닝 회고 드디어 머신러닝을 배웁니다. 학교 수업시간에 배우고 이 길은 내 길이 아니다.. 하고 쳐다보지도 않았었는데 돌고 돌아 이렇게 맞닥뜨리게 되었네요. 머신러닝을 배우면 항상 디트로이트 비컴 휴먼 했던 기억이 나요.. 삽배드엔딩 한번 보고 그..