[TIL] Day 35, 36, 37 - Tableau, ML
⛺ 𝗕𝗼𝗼𝘁 𝗖𝗮𝗺𝗽/멋쟁이사자처럼 AI 스쿨 6기

[TIL] Day 35, 36, 37 - Tableau, ML

 

 

 35/36일차 

Tableau

  • 35일은 결석 🥹
  • 지도 맵 그려보기
  • 테이블이랑 지도 맵 매핑
  • 데이터 해석기 사용
  • 태블로에서 간단한 데이터 전처리
  • 동작을 이용해서 인터렉티브 대시보드 만들기
  • 필터를 활용해서 그래프 필터링하기
  • 매개변수 만들기
  • 계산된 필드 만들기
  • 특정값 그래프 색 변경하기
  • 서식 지정하기
  • 버튼 선택해서 특정 카테고리값 그래프 확인하기

 

 

 

 37일차 

ML

  • StandardScaler
  • MinMaxScaler
  • RobustScaler
  • 각각 hist 그려보기
    • 분포는 같으나, x 값은 다르다.
    • tree 계열 모델에서는 큰 성능을 내지 못하나, 다른 알고리즘에서는 스케일링으로 정확도를 높일 수 있다.
  • 스케일링된 값에 log1p 적용하기
    • hist로 분포 살펴보기
    • 음수값이 있어도 로그를 취해도 되는가? -> 오류가 있음 (권장하지는 않는다.)
    • 음수값에 로그 취하기 -> 전체값의 최소에 절댓값만큼 평행이동
  • 지수, 로그함수
  • Feature Engineering (특성 공학)
    • 특성 선택
    • 특성 추출
    • 범위 변환
    • 변형
    • 범주화
    • 숫자화
  • 범주형, 수치형 타입
  • 이산화
    • cut : 동일한 길이, 절대평가, pd.cut(data, bins, lables)
    • Qcut : 동일한 개수, 상대평가, pd.qcut(data, bins)
    • 절대평가는 특정 점수 이상 넘으면 카운트, 상대평가는 인원수에 따라 퍼센트 할당
  • 인코딩
    • 오디널 인코딩 (ordinal)
    • 원핫 인코딩 (one-hot)
  • Ordinal Encoding
    • 순서성이 있어 비교하기가 쉬움
    • 직관적
    • series.astype('category').cat.codes
    • OrdinalEncoder
  • One-Hot Encoding
    • pd.get_dummies()
    • OneHotEncoder
    • 메모리를 많이 차지한다는 단점
  • 파생변수 (Feature Generation)
    • 머신러닝은 소수의 피처보다 여러가지 피터에 기반할 때 성능이 더 뛰어나다.
    • 다항식 전개가 보기에 직관적이지 않을 수 있지만, 머신러닝에서는 여러 피처에 기반하게 되어 안정성이 높아진다.
    • PolynomialFeatures(degree, include_bias)
  • 분포가 uniform 하면 왜 유용한가? -> 어느 한 구간에 몰려있는게 아니라 일반적인 예측 성능이 높아지기 때문에

 

 

 

 회고 

장마라서 그런지 비가 내립니다 ~ ☔️

그래도 가뭄이었다던데 비가 내려서 다행입니다.

장마시즌에는 빗소리가 asmr 같아서 잠이 잘와요

그래서 그런지 아침에 평소보다 늦게 일어나게 되는 것 같아요

최근에 친구를 만났는데 식물을 키운다고 합니다.

반려동물은 키울 자신이 없고, 저도 반려식물은 키워보고 싶네요.

이렇게 비가 오면 양동이에 빗물을 받으러 밖에 나간다고 하던데 신기하더군요.

빗물에서 식물이 잘 자라나봐요.

 

 

 

 


 

728x90