728x90
반응형
<문제> 이상치를 찾아라
데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오.
<작업순서>
1. EDA작업 ( 데이터 결측값, shape확인)
2. IQR 구하기
3. 최솟값 = Q1 - 1.5 * (Q3 - Q1)
4. 최댓값 = Q3 - 1.5 * (Q3 - Q1)
5. Fare 이상치 찾기
6. 이상치 데이터 여성 수 구하기
1. EDA작업
- null 값 확인하기
- 구하고자 하는게 'Sex'와 'Fare'이기 때문에 결측값 처리 없이 작업진행하기
2~5. IQR, 최솟값, 최댓값, 'Fare' 이상치 구하기
# 2번
Q3 = np.percentile(df['Fare'], 75)
Q1 = np.percentile(df['Fare'], 25)
IQR = Q3-Q1
# 3~5번
outdata1 = df[df['Fare] < Q1 - 1.5*IQR]
outdata2 = df[df['Fare] > Q3 = 1.5*IQR]
print(len(outdata1)) # 0
print(len(outdata2)) # 116
6. 이상치 데이터 여성의 수 구하기
print(sum(outdata2['Sex'] == 'female')) # 70
728x90
반응형
'인공지능, 데이터분석 > [Numpy, Pandas] EDA, 문법' 카테고리의 다른 글
[Numpy] 집계함수 max(), sum().. (0) | 2023.05.11 |
---|---|
[Numpy] 넘파이 자료형의 다양한 데이터 타입 (0) | 2023.05.11 |
[빅분기] T1-3. 결측치 처리, 결측치 비율확인(map, drop 활용) (0) | 2023.01.06 |
[빅분기] T1-2. 이상치를 찾아라(소수점 나이) (0) | 2023.01.02 |
[pandas] 06-02. 결측값 제거(dropna) (0) | 2022.11.21 |