35/36일차
Tableau
- 35일은 결석 🥹
- 지도 맵 그려보기
- 테이블이랑 지도 맵 매핑
- 데이터 해석기 사용
- 태블로에서 간단한 데이터 전처리
- 동작을 이용해서 인터렉티브 대시보드 만들기
- 필터를 활용해서 그래프 필터링하기
- 매개변수 만들기
- 계산된 필드 만들기
- 특정값 그래프 색 변경하기
- 서식 지정하기
- 버튼 선택해서 특정 카테고리값 그래프 확인하기
37일차
ML
- StandardScaler
- MinMaxScaler
- RobustScaler
- 각각 hist 그려보기
- 분포는 같으나, x 값은 다르다.
- tree 계열 모델에서는 큰 성능을 내지 못하나, 다른 알고리즘에서는 스케일링으로 정확도를 높일 수 있다.
- 스케일링된 값에 log1p 적용하기
- hist로 분포 살펴보기
- 음수값이 있어도 로그를 취해도 되는가? -> 오류가 있음 (권장하지는 않는다.)
- 음수값에 로그 취하기 -> 전체값의 최소에 절댓값만큼 평행이동
- 지수, 로그함수
- Feature Engineering (특성 공학)
- 특성 선택
- 특성 추출
- 범위 변환
- 변형
- 범주화
- 숫자화
- 범주형, 수치형 타입
- 이산화
- cut : 동일한 길이, 절대평가, pd.cut(data, bins, lables)
- Qcut : 동일한 개수, 상대평가, pd.qcut(data, bins)
- 절대평가는 특정 점수 이상 넘으면 카운트, 상대평가는 인원수에 따라 퍼센트 할당
- 인코딩
- 오디널 인코딩 (ordinal)
- 원핫 인코딩 (one-hot)
- Ordinal Encoding
- 순서성이 있어 비교하기가 쉬움
- 직관적
- series.astype('category').cat.codes
- OrdinalEncoder
- One-Hot Encoding
- pd.get_dummies()
- OneHotEncoder
- 메모리를 많이 차지한다는 단점
- 파생변수 (Feature Generation)
- 머신러닝은 소수의 피처보다 여러가지 피터에 기반할 때 성능이 더 뛰어나다.
- 다항식 전개가 보기에 직관적이지 않을 수 있지만, 머신러닝에서는 여러 피처에 기반하게 되어 안정성이 높아진다.
- PolynomialFeatures(degree, include_bias)
- 분포가 uniform 하면 왜 유용한가? -> 어느 한 구간에 몰려있는게 아니라 일반적인 예측 성능이 높아지기 때문에
회고
장마라서 그런지 비가 내립니다 ~ ☔️
그래도 가뭄이었다던데 비가 내려서 다행입니다.
장마시즌에는 빗소리가 asmr 같아서 잠이 잘와요
그래서 그런지 아침에 평소보다 늦게 일어나게 되는 것 같아요
최근에 친구를 만났는데 식물을 키운다고 합니다.
반려동물은 키울 자신이 없고, 저도 반려식물은 키워보고 싶네요.
이렇게 비가 오면 양동이에 빗물을 받으러 밖에 나간다고 하던데 신기하더군요.
빗물에서 식물이 잘 자라나봐요.
728x90
'⛺ 𝗕𝗼𝗼𝘁 𝗖𝗮𝗺𝗽 > 멋쟁이사자처럼 AI 스쿨 6기' 카테고리의 다른 글
[TIL] Day 39 - ML, 평가 지표 (0) | 2022.06.29 |
---|---|
[TIL] Day 38 - ML (0) | 2022.06.28 |
[TIL] Day 34 - ML, Loss Fuction, log (0) | 2022.06.22 |
[TIL] Day 32, 33 - ML, RandomForest (0) | 2022.06.21 |
[TIL] Day 31 - Tableau (0) | 2022.06.17 |