728x90

인공지능, 데이터분석/[Numpy, Pandas] EDA, 문법 17

[Numpy] random 서브패키지 - rand(), shuffle(), choice() ...

random 서브 패키지 seed rand() shuffle() choice() randa() randint() unique() 1. seed 어떤 특정하 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성한다 이런 시작 숫자를 시드(seed)라고한다. seed는 보통 0이나 양의 정수를 사용한다. np.random.seed(0) 2. rand() 0부터 1사이에서 균일한 확률 분포로 실수 난수를 파라미터(인수)만큼 발생시킨 후 리스트 형식으로 변환한다. 3. shuffle() 데이터를 순서를 바꾸는 기능을 수행한다. 4. choice() 이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것을 샘플링(sampling)이라고 하며 이를 위해 choice()를 사용한다..

[Numpy] 집계함수 max(), sum()..

함수 설명 함수 설명 max() 최대값 min() 최소값 mean() 평균 median() 중앙값 sum() 합계 comsum() 누적합계 var() 분산 std() 표준편차 1. 합계 sum() / 평균 mean() 2. 중앙값 median(), 최대값 max() 3. 최소값 min() / 누적합계 cumsum() 4. 상관계수 / 표준편차 std() / 분산 var() 5. 최대값 인덱스 argmax() / 최소값 인덱스 argmin() / 사분위수 percentile()

[Numpy] 넘파이 자료형의 다양한 데이터 타입

1. 넘파이의 다양한 데이터 타입 np.object : 파이썬 객체 타입 np.string_ : 고정자리 스트링 타입 np.unicode_ : 고정자리 유니코드 타임 데이터 타입 설명 bool_ 바이트 형태로 저장되는 Boolean타입 int_ Default integer 타입 intc C int (일반적으로 int32 또는 int64) intp 인덱싱에 사용되는 integer int8 int 형태 (-128 ~ 127) -> (2**8)/2 int16 int 형태 (-32,768 ~ 32,767) int32 int 형태 (-2147483648 ~ 2147483647) int64 int 형태(-922337036854775808 ~ 9223372036854775807) unit8 Unsingde int형태..

[빅분기] T1-3. 결측치 처리, 결측치 비율확인(map, drop 활용)

주어진 데이터에서 결측치가 80%이상 되는 컬럼은 삭제하고, 80%미만인 결측치가 있는 컬럼은 'city'별 중앙값으로 값을 대체하고 'f1'컬럼의 평균값을 출력하시오. 1. 라이브러리 및 데이터 불러오기 import numpy as np import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') df 2. 결측치, shape 확인 및 결측치 비율 확인 df.isnull().sum() df.shape # (100, 8) # 결측치 비율 확인 df.isnull().sum() / df.shape[0] # 80% 이상 결측치 컬럼 삭제 df.drop(['f3'], axis = 1) 3. 도시확인 및 도시별 중앙값..

[빅분기] T1-2. 이상치를 찾아라(소수점 나이)

주어진 데이터에서 이상치(소수점 나이)를 찾고 올림, 내림, 버림(절사)했을때 3가지 모두 이상치 'age' 평균을 구한 다음 모두 더하여 출력하시오. 1. 라이브러리 및 데이터 불러오기 2. 소수점 데이터 찾기 3. 올림, 내림, 버림 값의 평균값 구하기 4. 올림, 내림, 버림 평균 합계구하기 1. 라이브러리 및 데이터 불러오기 import numpy as np import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') df 2. 소수점 데이터 찾기 df = df[df['age'] - np.floor(df['age']) != 0] df # 예를 들어 1.0 - 1.0 = 0 이라서 소수점 데이터가 아님 ..

[빅분기] T1-1. 이상치를 찾아라(IQR)활용하기

이상치를 찾아라 데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오. 1. EDA작업 ( 데이터 결측값, shape확인) 2. IQR 구하기 3. 최솟값 = Q1 - 1.5 * (Q3 - Q1) 4. 최댓값 = Q3 - 1.5 * (Q3 - Q1) 5. Fare 이상치 찾기 6. 이상치 데이터 여성 수 구하기 1. EDA작업 - null 값 확인하기 - 구하고자 하는게 'Sex'와 'Fare'이기 때문에 결측값 처리 없이 작업진행하기 2~5. IQR, 최솟값, 최댓값, 'Fare' 이상치 구하기 # 2번 Q3 = np.percentile(df['Fare'], 75) Q1 = np.percentile(df['Fare'], 25) IQR = Q3-Q1 # 3~5번 o..

[pandas] 06-02. 결측값 제거(dropna)

▶ 결측값 제거(dropna) - 기본 사용법 DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False) axis : {0: index / 1: columns} 결측치 제거를 진행할 레이블 how : {'any' : 존재하면 제거 / 'all' : 모두 결측치면 제거} 제거할 유형 - 포함만 시켜도 제거할지, 전부 NA여야 제거할지 정할 수 있음 tresh : 결측값이 아닌 값이 몇 개 미만일 경우에만 적용시키는 인수 - 예를들어, tresh값이 3이라면 결측값이 아닌 값이 3개 미만일 경우에만 dropna 메서드 수행 subset : dropna메서드를 수행할 레이블 지정 inplace : 원본을 변경할지의 여부 - 예시 c..

728x90
반응형