[TIL] Day 11 - 웹 스크래핑

11일차 게시판 글 가져오기 pd.read_html(url, encoding) 을 통해서 DOM 내 테이블 태그 가져오기 데이터 프레임 형태로 가져와 리스트로 저장된다. pd.read_html(res.text) 로 테이블 가져오기 requests.get(url, headers, encoding) 을 통해 html 코드 가져오기 단, 코드 상태로 가져와 따로 사용하고 싶다면 BeautifulSoup 을 사용해야한다. response.text 안에 해당 내용이 담겨있다. response.status_code response.encoding bs(res.text, 'lxml') 을 통해서 파싱이 가능하다. html.find() html.find_all() html.select() html.selcet('tab..

→2022.05.18

⛺ 𝗕𝗼𝗼𝘁 𝗖𝗮𝗺𝗽/멋쟁이사자처럼 AI 스쿨 6기

[TIL] Day 10 - 웹 스크래핑

10일차 cols = [컬럼명 리스트] df = df[cols] 컬럼명 변경하기 df.columns = cols 로도 변경 가능하다. pd.concat(list) 로 list에 들어있는 데이터 프레임을 한번에 합칠 수 있다. df.dropna(how='all', axis=0).dropna(how='all', axis=1) pd.read_html(url, encoding) 로 사이트 내 정보를 데이터 프레임 형태로 리스트로 담아올 수 있다. requests 모듈 import requests requests.get(url, headers) read_html 로 담아오지 못할 때가 있다. 이럴 때는 header 에 무엇이 필요한지 확인. user-agent : 해당 정보로 내가 로봇이 아닌 것을 알려줘야함 u..

→2022.05.17

⛺ 𝗕𝗼𝗼𝘁 𝗖𝗮𝗺𝗽/멋쟁이사자처럼 AI 스쿨 6기

[TIL] Day 9 - 범주형 변수, 웹 스크래핑

9일차 범주형 변수 시각화 df.unique() : 유일값 구하기 sns.countplot(data, x) : 빈도수 시각화 한 가지 값만 있어도 된다. df[].value_count() 범주형 변수 하나만 있을 때 사용하기 좋다. 범주형 별로 카운팅을 해준다. 시각화를 할 때 hue 값은 3개 이하의 범주형 변수로 두는 것이 좋다. pd.crosstab(df[], df[]) 컬럼을 기준으로 행의 범주화를 하여 보여준다. groupby(by=) by 값을 기준으로 그룹핑을 한다. groupby().mean()[] groupby()[].mean() groupby().mean()[[]] groupby()[[]].mean() df.groupby()[].agg(['mean', 'sum']) : 기술통계 값을 여..

→2022.05.16

⛺ 𝗕𝗼𝗼𝘁 𝗖𝗮𝗺𝗽/멋쟁이사자처럼 AI 스쿨 6기

[TIL] Day 7, 8 - 소공, SQL 기초

7일차 음식의 매운맛을 산정하고, 각각의 음식별로 데이터를 가장 잘 나타낼 수 있는 통계방법은? 기름진맛이 추가되고, 매운맛과 기름진맛을 기준으로 통계를 낸다면? 단맛이 추가된다면? 구글시트 사용하기 중복제거 수치데이터 조건부서식 넣어서 시각화 Min-Max Scaling Dependency Graph 피타고라스 방식은 2차원 공간에서만 허용되는 것이 아니다. 수식을 시각화해주는 사이트 https://www.geogebra.org/calculator 계산기 스위트 - GeoGebra www.geogebra.org 8일차 SELECT, FROM WHERE GROUP BY 앞에서 와야함 WHERE SUM(x) = 20 이런식으로 못함 AS 별칭 OR AND LIKE, NOT LIKE IN IS NULL, I..

→2022.05.13

⛺ 𝗕𝗼𝗼𝘁 𝗖𝗮𝗺𝗽/멋쟁이사자처럼 AI 스쿨 6기

[TIL] Day 6 - 파이썬 데이터 분석 기초

6일차 Python EDA 기초 pandas, numpy, seaborn, matplotlib import 하기 pd : 1.3.5 버전 sns : 0.11.2 버전 sns 을 이용하여 dataset 불러오기 df.index 을 이용하여 index 값 보기 df.columns 을 이용하여 열 값만 보기 (라벨만) df.values 을 이용하여 값만 보기 df.types 을 이용하여 컬럼에 따른 데이터 타입 보기 df.head(n) 을 이용하여 상위부터 n 까지의 데이터 일부 가져오기 df.tail(n) 을 이용하여 하위부터 n 까지의 데이터 일부 가져오기 df.sample(frac|n) 을 이용하여 랜덤으로 데이터 일부 가져오기 df.info() 을 이용하여 데이터셋 요약하기 df.isnull() 이용하..

→2022.05.11

⛺ 𝗕𝗼𝗼𝘁 𝗖𝗮𝗺𝗽/멋쟁이사자처럼 AI 스쿨 6기

[TIL] Day 4, 5 - Python 문법, EDA

4일차 조건문 if - elif - else 짝수만 출력, 홀수만 출력 i % 2 == 0 반복문 for for 요일 in "월화수목금토일" for week in weekday 리스트 컨프리핸션 for i, x in enumerate(list) range(처음, 끝, 스텝) range(1, 10, 2) range(10, 0, -1) f-string 반복문 while while True: 무한 반복 함수 def 함수이름(매개변수) split('-') strip() replace('월', ' ') doc-string 5일차 ?, ?? 사용 데이터 전처리 for ':' in age 딕셔너리 {} d['a'] = aa key-value 쌍 pandas 개념 pandas, numpy, seaborn import ..

→2022.05.10

[TIL] Day 11 - 웹 스크래핑

[TIL] Day 10 - 웹 스크래핑

[TIL] Day 9 - 범주형 변수, 웹 스크래핑

[TIL] Day 7, 8 - 소공, SQL 기초

[TIL] Day 6 - 파이썬 데이터 분석 기초

[TIL] Day 4, 5 - Python 문법, EDA

티스토리툴바