📊 𝗕𝗶𝗴𝗗𝗮𝘁𝗮/Preprocessing

    [Pandas] mode 최빈값 구하기

    최빈값 구하기 만약 다음과 같은 값이 있다고 합니다. 여기서 범주형 데이터 최빈값을 꺼내보려고 합니다. air_gd.groupby(by=['시도명', '항목'])[['19년_등급']].agg(pd.Series.mode) agg() 함수를 이용해서 pd.Series.mode 를 이용하면 됩니다. 그러면 다음과 같이 나오게 됩니다. 범주형 최빈값 구하기 pandas category mode group

    [Pandas] 데이터 프레임 문자형 숫자형 타입 변경하기

    문자형 → 숫자형 변경 타입 확인 결측치를 보간하려는데 타입이 맞지 않습니다. 따라서 데이터 프레임 열 전부를 타입 변경하고자 합니다. 해당 열의 타입을 확인해보면 둘 다 str(문자열) 타입인 것을 확인할 수 있습니다. 문자열 타입을 Float 형식으로 변경해보겠습니다. Seriese.astype(타입) 사용 df[['아황산가스농도', '일산화탄소농도']] = df[['아황산가스농도', '일산화탄소농도']].astype(float) astype() 으로 문자열을 숫자형으로 변경할 수 있습니다. 확인해보면 float 형식으로 변경이 된 것을 확인할 수 있습니다. 단, 변경 시 값에는 0.03 같은 숫자값이 적혀있어야 합니다. 만약 "값없음" 같은 문자형 값이 있다면 따로 변경해줘야 합니다. 그러한 값을 ..

    [Pandas] replace() 이용하여 컬럼 값 한번에 변경하기

    컬럼 값 변경하기 변경하고 싶은 컬럼 값 확인하기 df[df['아황산가스플래그'] == '통신장애'] 해당 데이터 프레임에서 ['아황산가스플래그'] 컬럼에 '통신장애' 라는 값이 들어있는 것을 확인할 수 있습니다. 컬럼을 기준으로 해당 값을 아예 NaN 값으로 변경을 해보려고 합니다. replace() 사용하기 df = df.replace('통신장애', np.nan) 첫번째 파라미터에는 변경하고 싶은 타겟 값을, 두번째에는 변경하고자 하는 결과 값을 입력합니다. 저는 '통신장애' 라는 문자열을 전부 결측치 값으로 변경할 예정입니다. 결과 확인 len(df[df['아황산가스플래그'] == '통신장애']) 데이터 프레임을 다시 확인해보면 해당 값이 없어진 것을 확인할 수 있습니다. 전체 데이터를 확인해봐도 ..