728x90

numpy 4

[Numpy] random 서브패키지 - rand(), shuffle(), choice() ...

random 서브 패키지 seed rand() shuffle() choice() randa() randint() unique() 1. seed 어떤 특정하 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성한다 이런 시작 숫자를 시드(seed)라고한다. seed는 보통 0이나 양의 정수를 사용한다. np.random.seed(0) 2. rand() 0부터 1사이에서 균일한 확률 분포로 실수 난수를 파라미터(인수)만큼 발생시킨 후 리스트 형식으로 변환한다. 3. shuffle() 데이터를 순서를 바꾸는 기능을 수행한다. 4. choice() 이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것을 샘플링(sampling)이라고 하며 이를 위해 choice()를 사용한다..

[Numpy] 집계함수 max(), sum()..

함수 설명 함수 설명 max() 최대값 min() 최소값 mean() 평균 median() 중앙값 sum() 합계 comsum() 누적합계 var() 분산 std() 표준편차 1. 합계 sum() / 평균 mean() 2. 중앙값 median(), 최대값 max() 3. 최소값 min() / 누적합계 cumsum() 4. 상관계수 / 표준편차 std() / 분산 var() 5. 최대값 인덱스 argmax() / 최소값 인덱스 argmin() / 사분위수 percentile()

[Numpy] 넘파이 자료형의 다양한 데이터 타입

1. 넘파이의 다양한 데이터 타입 np.object : 파이썬 객체 타입 np.string_ : 고정자리 스트링 타입 np.unicode_ : 고정자리 유니코드 타임 데이터 타입 설명 bool_ 바이트 형태로 저장되는 Boolean타입 int_ Default integer 타입 intc C int (일반적으로 int32 또는 int64) intp 인덱싱에 사용되는 integer int8 int 형태 (-128 ~ 127) -> (2**8)/2 int16 int 형태 (-32,768 ~ 32,767) int32 int 형태 (-2147483648 ~ 2147483647) int64 int 형태(-922337036854775808 ~ 9223372036854775807) unit8 Unsingde int형태..

[빅분기] T1-3. 결측치 처리, 결측치 비율확인(map, drop 활용)

주어진 데이터에서 결측치가 80%이상 되는 컬럼은 삭제하고, 80%미만인 결측치가 있는 컬럼은 'city'별 중앙값으로 값을 대체하고 'f1'컬럼의 평균값을 출력하시오. 1. 라이브러리 및 데이터 불러오기 import numpy as np import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') df 2. 결측치, shape 확인 및 결측치 비율 확인 df.isnull().sum() df.shape # (100, 8) # 결측치 비율 확인 df.isnull().sum() / df.shape[0] # 80% 이상 결측치 컬럼 삭제 df.drop(['f3'], axis = 1) 3. 도시확인 및 도시별 중앙값..

728x90
반응형