인공지능, 데이터분석/[Numpy, Pandas] EDA, 문법

[Pandas] Series()와 DataFrame(), DataFrame 관련 메서드

마법사 코딩공주 2023. 5. 12. 12:30
728x90
반응형

📌 1. Series()와 DataFrame()

구분 Series() DataFram()
데이터 1차원 벡터 데이터 2차원 벡터 데이터
인덱스 행방향 인덱스
(row index)
행, 열 방향 인덱스
(row index), (column indes)
자료구조 하나의 자료형만 가질 수 있는
homogeneous 타입의 container
각각의 열은 서로 다른 자료형을 가질 수 있는
heterogeneous타입의 자료 구조

 

📌 2. DataFrame 관련 메서드

구분 설명
head() - 상위 5개를 읽어온다.
tail() - 하위 5개를 읽어온다.
sample() - DataFrame의 행을 인자로 주어지는 숫자만큼 무작위 순서로 읽어온다.
- 인자를 입력하지 않을 경우 기본값은 1이다.
inro() - DataFrame에 대한 기본 정보를 요약한다.
- 인덱스의 종류, 인덱스의 범위, 행의 개수, 열의 개수, 데이터 타입, 메모리 정보를 알 수 있다.
- 세부적으로 각 열의 데이터 개수(누락 데이터 제외)와 데이터 타입도 알 수 있다.
describe() - 숫자형 열에 대한 기초 통계를 분석한다. 
>> 데이터의 총 개수, 평균(mean), 표준 편차(std), 최솟값(min), 25%, 50%, 75%, 최댓값(max)
- 숫자형이 아닌 열을 포함한 기초통계 분석이 필요할 때는 include="all" 옵션 이용
- 데이터의 종류 수(unique), 가장 많이 등장한 데이터(top)
- 가장 많이 등장한 데이터의 빈도수(freq)를 분석
isna() - 결측값(Missing Value)를 파악하고 처리하는데 사용
- 값이 None일 경우 True, 값이 정상적으로 채워져 있을 경우 False로 변환
corr() - 숫자형으로 된 열 간의 상관관계를 구한다.
- 상관관계를 계산할 때 결측값은 제외된다.
mean() 평균구하기
count() 결측 값을 제외한 값의 종 개수 구하기
sum() 총 합 구하기
std() 표준편차 구하기
var() 분산 구하기
median() 중앙값 구하기
min() 최솟값 구하기
max() 최댓값 구하기
gruopby() - 데이터를 그룹별로 집계하는 기법
- 기준이 될 열 이름을 인자로 하고, 기술 통계 메서드를 붙여서 사용
- 열 이름을 리스트로 묶어서 인자로 넣으면 리스트의 순서대로 상위 level에서 하위 level순으로 그룹이 구성
rename() - 라벨 이름을 재설정
- 바꾸고 싶은 라벨 이름을 Key, 바꿀 라벨 이름을 value로 하는 딕셔너리로 맵핑해서 인자로 사용
map() - Series의 개별 값에 접근하여 값을 변형하는 메서드
apply() - 함수가 1개 이상의 인자를 필요로 하는 경우 사용
- 첫번째 인자는 함수이고 나머지 인자를 전달하는 방법은 parameter의 종류에 따라 2가지로 나뉜다.
- positional parameter는 리스트로 묶어 args 옵션으로 전달하고 keyword parameter는 그대로 입력하여 전달한다.

 

📁 실습코드 확인 : https://github.com/Jungddaseul/AI_study/blob/main/01_Pandas/02_pandas(DataFrame).ipynb 

 

GitHub - Jungddaseul/AI_study

Contribute to Jungddaseul/AI_study development by creating an account on GitHub.

github.com

 

728x90
반응형