34일차
ML
- datetime.dt.year
- 로그를 취하는 이유
- 값이 너무 커지는 것을 막기 위해
- 그래프를 비교적 완만하게 만들어 정규분포의 형태에 가깝게 만들 수 있게 된다.
- 첨도와 왜도가 낮아진다.
- 로그에 취한 값을 다시 되돌리려면? -> e^(취한값) - 1
- np.log1p
- np.expm1
- kde 그래프
- 커널 밀도 그래프
- 커널 함수를 이용한 밀도 추정의 방법
- 밀도를 추정한다는 것은 확률밀도함수를 그려보겠다는 것
- 로그를 취해서 학습을 하고 나온 값은 다시 지수를 취해서 돌려놓는다.
- 코로나 데이터를 보면 월을 사용하지 않고, 연도-월을 이용
- 각 월마다의 추이는 같지만, 연도를 기준으로 해서 값이 배나 차이가 나기 떄문
- 월마다의 영향력이 있는게 아니라 연도가 더 쏀 느낌 (?)
- X_train, y_train, X_test
- feature_names, label_name
- from sklearn.ensemble import RandomForestRegressor
- sklearn.metrics.SCORERS.keys() 손실함수 보기
- 추정치와 실제값의 오차
- 손실함수가 작을수록 좋은 것이다.
- 손실함수를 최소화하도록 하는 것
- 왜 손실함수가 필요한가? -> 딱 추정치를 맞추는 것이 무척 어렵기 떄문
- 그 언저리 맞추기 위해서
- 그리고 그걸 얼만큼 맞췄나 평가하기 위해서
- MSE, MAE, RMSE, RMSLE
- 이상치 찾기
- 희소값 탐색
- 변수 스케일링
- ss
- minmax
- rs
회고
흠 복습을 열심히 해야할 것 같습니다.
이해가 되다가도 되지 않고 그렇네요.
그래도 반복하다보니까 확실히 머릿속에 익는 느낌입니다. 🧠
728x90
'⛺ 𝗕𝗼𝗼𝘁 𝗖𝗮𝗺𝗽 > 멋쟁이사자처럼 AI 스쿨 6기' 카테고리의 다른 글
[TIL] Day 38 - ML (0) | 2022.06.28 |
---|---|
[TIL] Day 35, 36, 37 - Tableau, ML (0) | 2022.06.27 |
[TIL] Day 32, 33 - ML, RandomForest (0) | 2022.06.21 |
[TIL] Day 31 - Tableau (0) | 2022.06.17 |
[TIL] Day 30 - 테스트 자동화/주도개발 (0) | 2022.06.16 |