728x90
반응형
📌 groupby() 메서드
데이터를 그룹화하여 연산을 수행하는 메서드 입니다.
형태 : DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=NoDefault.no_default, observed=False, dropna=True)
사용법
- by : 그룹화할 내용입니다. 함수, 축, 리스트 등이 올 수 있음
- axis : 그룹화를 적용할 축
- level : 멀티 인덱스의 경우 레벨을 지정할 수 있음
- as_index : 그룹화할 내용을 인덱스로 할지 여부/ False이면 기존 인덱스가 유지됨
- sort : 그룹키를 정렬할지 여부
- group_keys : apply메서드 사용시 결과에 따라 그룹화 대상인 열이 인덱스와 중복(group key)이 될 수 있음. 이때, gorup_keys=False로 인덱스를 기본값으로 지정할 수 있음
- squeeze : 결과가 1행 or 1열짜리 데이터일 경우 Series로, 1행 & 1열 짜리 데이터일 경우 스칼라로 출력
- observed : Categorical로 그룹화 할 경우 Categorical 그룹퍼에 의해 관찰된 값만 표시할지 여부
- dropna : 결측값을 계산에서 제외할지 여부
📌 다중 통계 함수 적용 agg()
여러 가지의 통계 값을 적용하 때는 agg()를 사용
# 성별, 좌석등급 별 통계
df.groupby(['sex', 'pclass'])[['survived', 'age']].agg(['mean', 'sum'])
728x90
반응형
'인공지능, 데이터분석 > [Numpy, Pandas] EDA, 문법' 카테고리의 다른 글
[Pandas] datetime 모듈에 대해 알기 ! (0) | 2023.05.25 |
---|---|
[Pandas] map(), apply() 메서드 (0) | 2023.05.24 |
[Pandas] .isin() 메서드란? (0) | 2023.05.16 |
[Pandas] drop_duplicates('컬럼명') 이란? (0) | 2023.05.16 |
[Pandas] reset_index(drop=True)란? (0) | 2023.05.16 |