[Pandas] Series()와 DataFrame(), DataFrame 관련 메서드

인공지능, 데이터분석/[Numpy, Pandas] EDA, 문법

[Pandas] Series()와 DataFrame(), DataFrame 관련 메서드

마법사 코딩공주 2023. 5. 12. 12:30

728x90

📌 1. Series()와 DataFrame()

구분	Series()	DataFram()
데이터	1차원 벡터 데이터	2차원 벡터 데이터
인덱스	행방향 인덱스 (row index)	행, 열 방향 인덱스 (row index), (column indes)
자료구조	하나의 자료형만 가질 수 있는 homogeneous 타입의 container	각각의 열은 서로 다른 자료형을 가질 수 있는 heterogeneous타입의 자료 구조

📌 2. DataFrame 관련 메서드

구분	설명
head()	- 상위 5개를 읽어온다.
tail()	- 하위 5개를 읽어온다.
sample()	- DataFrame의 행을 인자로 주어지는 숫자만큼 무작위 순서로 읽어온다. - 인자를 입력하지 않을 경우 기본값은 1이다.
inro()	- DataFrame에 대한 기본 정보를 요약한다. - 인덱스의 종류, 인덱스의 범위, 행의 개수, 열의 개수, 데이터 타입, 메모리 정보를 알 수 있다. - 세부적으로 각 열의 데이터 개수(누락 데이터 제외)와 데이터 타입도 알 수 있다.
describe()	- 숫자형 열에 대한 기초 통계를 분석한다. >> 데이터의 총 개수, 평균(mean), 표준 편차(std), 최솟값(min), 25%, 50%, 75%, 최댓값(max) - 숫자형이 아닌 열을 포함한 기초통계 분석이 필요할 때는 include="all" 옵션 이용 - 데이터의 종류 수(unique), 가장 많이 등장한 데이터(top) - 가장 많이 등장한 데이터의 빈도수(freq)를 분석
isna()	- 결측값(Missing Value)를 파악하고 처리하는데 사용 - 값이 None일 경우 True, 값이 정상적으로 채워져 있을 경우 False로 변환
corr()	- 숫자형으로 된 열 간의 상관관계를 구한다. - 상관관계를 계산할 때 결측값은 제외된다.
mean()	평균구하기
count()	결측 값을 제외한 값의 종 개수 구하기
sum()	총 합 구하기
std()	표준편차 구하기
var()	분산 구하기
median()	중앙값 구하기
min()	최솟값 구하기
max()	최댓값 구하기
gruopby()	- 데이터를 그룹별로 집계하는 기법 - 기준이 될 열 이름을 인자로 하고, 기술 통계 메서드를 붙여서 사용 - 열 이름을 리스트로 묶어서 인자로 넣으면 리스트의 순서대로 상위 level에서 하위 level순으로 그룹이 구성
rename()	- 라벨 이름을 재설정 - 바꾸고 싶은 라벨 이름을 Key, 바꿀 라벨 이름을 value로 하는 딕셔너리로 맵핑해서 인자로 사용
map()	- Series의 개별 값에 접근하여 값을 변형하는 메서드
apply()	- 함수가 1개 이상의 인자를 필요로 하는 경우 사용 - 첫번째 인자는 함수이고 나머지 인자를 전달하는 방법은 parameter의 종류에 따라 2가지로 나뉜다. - positional parameter는 리스트로 묶어 args 옵션으로 전달하고 keyword parameter는 그대로 입력하여 전달한다.

📁 실습코드 확인 : https://github.com/Jungddaseul/AI_study/blob/main/01_Pandas/02_pandas(DataFrame).ipynb

GitHub - Jungddaseul/AI_study

Contribute to Jungddaseul/AI_study development by creating an account on GitHub.

github.com

728x90

'인공지능, 데이터분석 > [Numpy, Pandas] EDA, 문법' 카테고리의 다른 글

[Pandas] drop_duplicates('컬럼명') 이란? (0)	2023.05.16
[Pandas] reset_index(drop=True)란? (0)	2023.05.16
[Pandas] 시리즈(Series) / unique() / isnull().. 함수 사용 (0)	2023.05.12
[Numpy] random 서브패키지 - rand(), shuffle(), choice() ... (0)	2023.05.11
[Numpy] 집계함수 max(), sum().. (0)	2023.05.11

현재글[Pandas] Series()와 DataFrame(), DataFrame 관련 메서드

나의 저장소, 이것저것 😗

혼공SQL, 백준, 빅분기, 판다스, pandas, 데이터베이스, 혼자공부하는 SQL, 구현, 문법, 빅데이터분석기사, SQL, Python, 한빛미디어, 알고리즘, 혼공학습단 9기, 프로그래머스, 혼공학습단, numpy, 파이썬, 코드업,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

마법사의 코딩

[Pandas] Series()와 DataFrame(), DataFrame 관련 메서드

📌 1. Series()와 DataFrame()

📌 2. DataFrame 관련 메서드

'인공지능, 데이터분석 > [Numpy, Pandas] EDA, 문법' 카테고리의 다른 글

'인공지능, 데이터분석/[Numpy, Pandas] EDA, 문법'의 다른글

티스토리툴바

[Pandas] Series()와 DataFrame(), DataFrame 관련 메서드

📌 1. Series()와 DataFrame()

📌 2. DataFrame 관련 메서드

'인공지능, 데이터분석 > [Numpy, Pandas] EDA, 문법' 카테고리의 다른 글

'인공지능, 데이터분석/[Numpy, Pandas] EDA, 문법'의 다른글

관련글

티스토리툴바