인공지능, 데이터분석/[Numpy, Pandas] EDA, 문법

[빅분기] T1-1. 이상치를 찾아라(IQR)활용하기

마법사 코딩공주 2023. 1. 2. 16:07
728x90
반응형

<문제> 이상치를 찾아라

데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오.

 

<작업순서>

1. EDA작업 ( 데이터 결측값, shape확인)

2. IQR 구하기

3. 최솟값 = Q1 - 1.5 * (Q3 - Q1)

4. 최댓값 = Q3 - 1.5 * (Q3 - Q1)

5. Fare 이상치 찾기

6. 이상치 데이터 여성 수 구하기


1. EDA작업

index : 891, column : 12 / null값 존재(Age, Cabin, Embarked)

- null 값 확인하기 

- 구하고자 하는게 'Sex'와 'Fare'이기 때문에 결측값 처리 없이 작업진행하기

2~5. IQR, 최솟값, 최댓값, 'Fare' 이상치 구하기

# 2번
Q3 = np.percentile(df['Fare'], 75)
Q1 = np.percentile(df['Fare'], 25)
IQR = Q3-Q1
# 3~5번
outdata1 = df[df['Fare] < Q1 - 1.5*IQR]
outdata2 = df[df['Fare] > Q3 = 1.5*IQR]

print(len(outdata1)) # 0
print(len(outdata2)) # 116

6. 이상치 데이터 여성의 수 구하기

print(sum(outdata2['Sex'] == 'female')) # 70

 

 

 

728x90
반응형