728x90

빅데이터분석기사 3

[빅분기] T1-3. 결측치 처리, 결측치 비율확인(map, drop 활용)

주어진 데이터에서 결측치가 80%이상 되는 컬럼은 삭제하고, 80%미만인 결측치가 있는 컬럼은 'city'별 중앙값으로 값을 대체하고 'f1'컬럼의 평균값을 출력하시오. 1. 라이브러리 및 데이터 불러오기 import numpy as np import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') df 2. 결측치, shape 확인 및 결측치 비율 확인 df.isnull().sum() df.shape # (100, 8) # 결측치 비율 확인 df.isnull().sum() / df.shape[0] # 80% 이상 결측치 컬럼 삭제 df.drop(['f3'], axis = 1) 3. 도시확인 및 도시별 중앙값..

[빅분기] T1-2. 이상치를 찾아라(소수점 나이)

주어진 데이터에서 이상치(소수점 나이)를 찾고 올림, 내림, 버림(절사)했을때 3가지 모두 이상치 'age' 평균을 구한 다음 모두 더하여 출력하시오. 1. 라이브러리 및 데이터 불러오기 2. 소수점 데이터 찾기 3. 올림, 내림, 버림 값의 평균값 구하기 4. 올림, 내림, 버림 평균 합계구하기 1. 라이브러리 및 데이터 불러오기 import numpy as np import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') df 2. 소수점 데이터 찾기 df = df[df['age'] - np.floor(df['age']) != 0] df # 예를 들어 1.0 - 1.0 = 0 이라서 소수점 데이터가 아님 ..

[빅분기] T1-1. 이상치를 찾아라(IQR)활용하기

이상치를 찾아라 데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오. 1. EDA작업 ( 데이터 결측값, shape확인) 2. IQR 구하기 3. 최솟값 = Q1 - 1.5 * (Q3 - Q1) 4. 최댓값 = Q3 - 1.5 * (Q3 - Q1) 5. Fare 이상치 찾기 6. 이상치 데이터 여성 수 구하기 1. EDA작업 - null 값 확인하기 - 구하고자 하는게 'Sex'와 'Fare'이기 때문에 결측값 처리 없이 작업진행하기 2~5. IQR, 최솟값, 최댓값, 'Fare' 이상치 구하기 # 2번 Q3 = np.percentile(df['Fare'], 75) Q1 = np.percentile(df['Fare'], 25) IQR = Q3-Q1 # 3~5번 o..

728x90
반응형