728x90
반응형
📌 1. Series()와 DataFrame()
구분 | Series() | DataFram() |
데이터 | 1차원 벡터 데이터 | 2차원 벡터 데이터 |
인덱스 | 행방향 인덱스 (row index) |
행, 열 방향 인덱스 (row index), (column indes) |
자료구조 | 하나의 자료형만 가질 수 있는 homogeneous 타입의 container |
각각의 열은 서로 다른 자료형을 가질 수 있는 heterogeneous타입의 자료 구조 |
📌 2. DataFrame 관련 메서드
구분 | 설명 |
head() | - 상위 5개를 읽어온다. |
tail() | - 하위 5개를 읽어온다. |
sample() | - DataFrame의 행을 인자로 주어지는 숫자만큼 무작위 순서로 읽어온다. - 인자를 입력하지 않을 경우 기본값은 1이다. |
inro() | - DataFrame에 대한 기본 정보를 요약한다. - 인덱스의 종류, 인덱스의 범위, 행의 개수, 열의 개수, 데이터 타입, 메모리 정보를 알 수 있다. - 세부적으로 각 열의 데이터 개수(누락 데이터 제외)와 데이터 타입도 알 수 있다. |
describe() | - 숫자형 열에 대한 기초 통계를 분석한다. >> 데이터의 총 개수, 평균(mean), 표준 편차(std), 최솟값(min), 25%, 50%, 75%, 최댓값(max) - 숫자형이 아닌 열을 포함한 기초통계 분석이 필요할 때는 include="all" 옵션 이용 - 데이터의 종류 수(unique), 가장 많이 등장한 데이터(top) - 가장 많이 등장한 데이터의 빈도수(freq)를 분석 |
isna() | - 결측값(Missing Value)를 파악하고 처리하는데 사용 - 값이 None일 경우 True, 값이 정상적으로 채워져 있을 경우 False로 변환 |
corr() | - 숫자형으로 된 열 간의 상관관계를 구한다. - 상관관계를 계산할 때 결측값은 제외된다. |
mean() | 평균구하기 |
count() | 결측 값을 제외한 값의 종 개수 구하기 |
sum() | 총 합 구하기 |
std() | 표준편차 구하기 |
var() | 분산 구하기 |
median() | 중앙값 구하기 |
min() | 최솟값 구하기 |
max() | 최댓값 구하기 |
gruopby() | - 데이터를 그룹별로 집계하는 기법 - 기준이 될 열 이름을 인자로 하고, 기술 통계 메서드를 붙여서 사용 - 열 이름을 리스트로 묶어서 인자로 넣으면 리스트의 순서대로 상위 level에서 하위 level순으로 그룹이 구성 |
rename() | - 라벨 이름을 재설정 - 바꾸고 싶은 라벨 이름을 Key, 바꿀 라벨 이름을 value로 하는 딕셔너리로 맵핑해서 인자로 사용 |
map() | - Series의 개별 값에 접근하여 값을 변형하는 메서드 |
apply() | - 함수가 1개 이상의 인자를 필요로 하는 경우 사용 - 첫번째 인자는 함수이고 나머지 인자를 전달하는 방법은 parameter의 종류에 따라 2가지로 나뉜다. - positional parameter는 리스트로 묶어 args 옵션으로 전달하고 keyword parameter는 그대로 입력하여 전달한다. |
📁 실습코드 확인 : https://github.com/Jungddaseul/AI_study/blob/main/01_Pandas/02_pandas(DataFrame).ipynb
728x90
반응형
'인공지능, 데이터분석 > [Numpy, Pandas] EDA, 문법' 카테고리의 다른 글
[Pandas] drop_duplicates('컬럼명') 이란? (0) | 2023.05.16 |
---|---|
[Pandas] reset_index(drop=True)란? (0) | 2023.05.16 |
[Pandas] 시리즈(Series) / unique() / isnull().. 함수 사용 (0) | 2023.05.12 |
[Numpy] random 서브패키지 - rand(), shuffle(), choice() ... (0) | 2023.05.11 |
[Numpy] 집계함수 max(), sum().. (0) | 2023.05.11 |