⛺ 𝗕𝗼𝗼𝘁 𝗖𝗮𝗺𝗽

    [TIL] Day 12, 13 - 구글 시트, SQL 중급

    12일차 구글시트로 Jupyter 포팅, EDA 구글 시트 URL 을 사용해서 jupyter notebook 에서 pd.read_csv 로 가져올 수 있다. index_col = 0 을 사용해서 인덱스 세팅 URL 패턴을 보고 함수로 만들어도 된다. 매운맛, 기름진맛, 단맛 데이터 사용 데이터를 가져오고 확인해야 할 3가지 정도 값의 범위가 0 ~ 1 사이인지 결측값은 없는지 데이터의 인덱스 값이 해당 데이터 모두 다 같은지 값의 범위 확인하는 함수 만약 최솟값과 최댓값이 (0, 1)이 아니라면 False df.min() axis = 0, 1 default 는 axis = 0 (행) 각 열마다의 min 값을 구하게 된다. df.max() df.min().min() 하게 되면 행과 열의 min 값을 구하게..

    [TIL] Day 11 - 웹 스크래핑

    11일차 게시판 글 가져오기 pd.read_html(url, encoding) 을 통해서 DOM 내 테이블 태그 가져오기 데이터 프레임 형태로 가져와 리스트로 저장된다. pd.read_html(res.text) 로 테이블 가져오기 requests.get(url, headers, encoding) 을 통해 html 코드 가져오기 단, 코드 상태로 가져와 따로 사용하고 싶다면 BeautifulSoup 을 사용해야한다. response.text 안에 해당 내용이 담겨있다. response.status_code response.encoding bs(res.text, 'lxml') 을 통해서 파싱이 가능하다. html.find() html.find_all() html.select() html.selcet('tab..

    [TIL] Day 10 - 웹 스크래핑

    10일차 cols = [컬럼명 리스트] df = df[cols] 컬럼명 변경하기 df.columns = cols 로도 변경 가능하다. pd.concat(list) 로 list에 들어있는 데이터 프레임을 한번에 합칠 수 있다. df.dropna(how='all', axis=0).dropna(how='all', axis=1) pd.read_html(url, encoding) 로 사이트 내 정보를 데이터 프레임 형태로 리스트로 담아올 수 있다. requests 모듈 import requests requests.get(url, headers) read_html 로 담아오지 못할 때가 있다. 이럴 때는 header 에 무엇이 필요한지 확인. user-agent : 해당 정보로 내가 로봇이 아닌 것을 알려줘야함 u..

    [TIL] Day 9 - 범주형 변수, 웹 스크래핑

    9일차 범주형 변수 시각화 df.unique() : 유일값 구하기 sns.countplot(data, x) : 빈도수 시각화 한 가지 값만 있어도 된다. df[].value_count() 범주형 변수 하나만 있을 때 사용하기 좋다. 범주형 별로 카운팅을 해준다. 시각화를 할 때 hue 값은 3개 이하의 범주형 변수로 두는 것이 좋다. pd.crosstab(df[], df[]) 컬럼을 기준으로 행의 범주화를 하여 보여준다. groupby(by=) by 값을 기준으로 그룹핑을 한다. groupby().mean()[] groupby()[].mean() groupby().mean()[[]] groupby()[[]].mean() df.groupby()[].agg(['mean', 'sum']) : 기술통계 값을 여..

    [TIL] Day 7, 8 - 소공, SQL 기초

    7일차 음식의 매운맛을 산정하고, 각각의 음식별로 데이터를 가장 잘 나타낼 수 있는 통계방법은? 기름진맛이 추가되고, 매운맛과 기름진맛을 기준으로 통계를 낸다면? 단맛이 추가된다면? 구글시트 사용하기 중복제거 수치데이터 조건부서식 넣어서 시각화 Min-Max Scaling Dependency Graph 피타고라스 방식은 2차원 공간에서만 허용되는 것이 아니다. 수식을 시각화해주는 사이트 https://www.geogebra.org/calculator 계산기 스위트 - GeoGebra www.geogebra.org 8일차 SELECT, FROM WHERE GROUP BY 앞에서 와야함 WHERE SUM(x) = 20 이런식으로 못함 AS 별칭 OR AND LIKE, NOT LIKE IN IS NULL, I..

    [TIL] Day 6 - 파이썬 데이터 분석 기초

    6일차 Python EDA 기초 pandas, numpy, seaborn, matplotlib import 하기 pd : 1.3.5 버전 sns : 0.11.2 버전 sns 을 이용하여 dataset 불러오기 df.index 을 이용하여 index 값 보기 df.columns 을 이용하여 열 값만 보기 (라벨만) df.values 을 이용하여 값만 보기 df.types 을 이용하여 컬럼에 따른 데이터 타입 보기 df.head(n) 을 이용하여 상위부터 n 까지의 데이터 일부 가져오기 df.tail(n) 을 이용하여 하위부터 n 까지의 데이터 일부 가져오기 df.sample(frac|n) 을 이용하여 랜덤으로 데이터 일부 가져오기 df.info() 을 이용하여 데이터셋 요약하기 df.isnull() 이용하..