12일차
구글시트로 Jupyter 포팅, EDA
- 구글 시트 URL 을 사용해서 jupyter notebook 에서 pd.read_csv 로 가져올 수 있다.
- index_col = 0 을 사용해서 인덱스 세팅
- URL 패턴을 보고 함수로 만들어도 된다.
- 매운맛, 기름진맛, 단맛 데이터 사용
- 데이터를 가져오고 확인해야 할 3가지 정도
- 값의 범위가 0 ~ 1 사이인지
- 결측값은 없는지
- 데이터의 인덱스 값이 해당 데이터 모두 다 같은지
- 값의 범위 확인하는 함수
- 만약 최솟값과 최댓값이 (0, 1)이 아니라면 False
- df.min()
- axis = 0, 1
- default 는 axis = 0 (행)
- 각 열마다의 min 값을 구하게 된다.
- df.max()
- df.min().min() 하게 되면 행과 열의 min 값을 구하게 되므로 제일 작은 값을 구할 수 있다.
- df.T 하면 인덱스가 위로 가게 된다.
- df.mask(df_mask, n) 하면 TRUE 표시 되어있는 값만 n 으로 변경가능하다.
- df.all()
- axis=0, 행을 기준으로 모든 열을 훑어서 AND 연산
- axis=1, 열을 기준으로 모든 행을 훑어서 AND 연산
- axis=None, df의 모든 값이 True 인가
- 모두 True 면 True 아니면 False
- df.any()
- axis=0, 행을 기준으로 모든 열을 훑어서 OR 연산
- axis=1, 열을 기준으로 모든 행을 훑어서 OR 연산
- axis=None, 행/열 둘다, df의 모든 값이 True인가
- 하나라도 True면 True
- 결측치가 있는지 없는지 확인하는 함수
- df.isna() 하면 결측치가 있는 것만 True
- df.isnull().sum().sum() : 총 NULL 값을 찾는다
- 인덱스가 다 같은가
- set() 집합 사용
- 집합을 사용하면 중복을 제거할 수 있다.
- set.intersection() : 교집합
- set.union() : 합집합
- 리스트는 * 를 사용해서 압축해제를 할 수 있다. (아래 참고)
2022.01.16 - [🧑💻 𝗣𝗿𝗼𝗴𝗿𝗮𝗺𝗺𝗶𝗻𝗴/Python] - Python 리스트 요소 한줄에 한번에 출력하기
- 더미 데이터 만들어서 테스트 해보기
- 특이값
- 경계값
- 이상치들을 넣어서 확인해본다.
- 클렌징
- 결측치 처리
- min-max scaling
- 대표값 구하기
- 하나의 데이터 프레임으로 합치기
- min-max scaling
- (x - min) / (max - min)
- 반복되는 값들은 변수로 둔다.
- max - min 이 0인 값은 예외처리를 해준다.
- df.loc[:, 조건]
- df.loc[:, [True, False]]
- df.loc[:, extent > 0]
- df.loc[:, [1, 3]]
- 파이썬 함수 작성법 : snake
13일차
SQL 중급
- 집계 함수
- COUNT
- AVG
- SUM
- MIN/MAX
- GROUP BY
- HAVING
- 그룹핑을 하면 뒤에 오는 컬럼을 SELECT 로 뽑아야 한다.
- 집계 함수 사용 가능
- CASE 문
- CASE WHEN ~ THEN ~ ELSE END
- CASE 로 시작해서 END 로 끝난다.
- 조건문을 여러 개 쓸 수 있다.
- ELSE 뒤에 아무 것도 안쓰면 null 값으로 들어간다.
- IF 문
- 조건문은 하나만 쓸 수 있다.
- IF(조건, True일 경우 값, False일 경우 값)
- 피벗 테이블
- SELECT COUNT(CASE ~ END) AS a
- 이런식으로 CASE 문을 이용해서 세로로 배치된 테이블을 가로로 피봇팅 할 수 있다.
- DISTINCT 를 쓰고 싶다면 COUNT(DISTINCT CASE ~ END) 에서
- 날짜
- 20220101
- '2022-01-01'
회고
금요일 입니다. 🎉 한 주의 끝이 다가왔네요.
9시간 가까이 앉아있다보니 어깨가 뻐근하네요. 쉬는 시간마다 스트레칭을 해주는 것을 잊지 말아야겠습니다.
요즘 미드 프렌즈를 보고 있습니다. 거의 무도랑 같이 저의 점심시간 밥동무 수준.
되게 재미없다고 생각했는데 엄청 재밌더라구요. 시즌 5까지 벌써 와버렸어요.
회고 쓰고 다시 보러가야겠어요. 남은 주말도 잘 보내길.
728x90
'⛺ 𝗕𝗼𝗼𝘁 𝗖𝗮𝗺𝗽 > 멋쟁이사자처럼 AI 스쿨 6기' 카테고리의 다른 글
[TIL] Day 15 - Plotly (0) | 2022.05.24 |
---|---|
[TIL] Day 14 - EDA (0) | 2022.05.23 |
[TIL] Day 11 - 웹 스크래핑 (0) | 2022.05.18 |
[TIL] Day 10 - 웹 스크래핑 (0) | 2022.05.17 |
[TIL] Day 9 - 범주형 변수, 웹 스크래핑 (0) | 2022.05.16 |