[TIL] Day 34 - ML, Loss Fuction, log — 흘러가는 프로그래밍 블로그

34일차

datetime.dt.year
로그를 취하는 이유
- 값이 너무 커지는 것을 막기 위해
- 그래프를 비교적 완만하게 만들어 정규분포의 형태에 가깝게 만들 수 있게 된다.
- 첨도와 왜도가 낮아진다.
로그에 취한 값을 다시 되돌리려면? -> e^(취한값) - 1
- np.log1p
- np.expm1
kde 그래프
- 커널 밀도 그래프
- 커널 함수를 이용한 밀도 추정의 방법
- 밀도를 추정한다는 것은 확률밀도함수를 그려보겠다는 것
로그를 취해서 학습을 하고 나온 값은 다시 지수를 취해서 돌려놓는다.
코로나 데이터를 보면 월을 사용하지 않고, 연도-월을 이용
- 각 월마다의 추이는 같지만, 연도를 기준으로 해서 값이 배나 차이가 나기 떄문
- 월마다의 영향력이 있는게 아니라 연도가 더 쏀 느낌 (?)
X_train, y_train, X_test
feature_names, label_name
from sklearn.ensemble import RandomForestRegressor
sklearn.metrics.SCORERS.keys() 손실함수 보기
- 추정치와 실제값의 오차
- 손실함수가 작을수록 좋은 것이다.
- 손실함수를 최소화하도록 하는 것
- 왜 손실함수가 필요한가? -> 딱 추정치를 맞추는 것이 무척 어렵기 떄문
- 그 언저리 맞추기 위해서
- 그리고 그걸 얼만큼 맞췄나 평가하기 위해서
MSE, MAE, RMSE, RMSLE
이상치 찾기
희소값 탐색
변수 스케일링
- ss
- minmax
- rs

흠 복습을 열심히 해야할 것 같습니다.

이해가 되다가도 되지 않고 그렇네요.

그래도 반복하다보니까 확실히 머릿속에 익는 느낌입니다. 🧠

728x90