728x90

인공지능, 데이터분석 45

[Pandas] 그룹화 계산(groupby) 메서드란?

📌 groupby() 메서드 데이터를 그룹화하여 연산을 수행하는 메서드 입니다. 형태 : DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=NoDefault.no_default, observed=False, dropna=True) 사용법 by : 그룹화할 내용입니다. 함수, 축, 리스트 등이 올 수 있음 axis : 그룹화를 적용할 축 level : 멀티 인덱스의 경우 레벨을 지정할 수 있음 as_index : 그룹화할 내용을 인덱스로 할지 여부/ False이면 기존 인덱스가 유지됨 sort : 그룹키를 정렬할지 여부 group_keys : apply메서드 사용시 결과에 따라 그룹..

[Pandas] .isin() 메서드란?

📌 1. .isin(리스트)? '.isin(리스트)' 는 열의 값이 리스트에 속하는지 여부를 확인하는 메서드 각 행의 값이 주어진 리스트의 요소 중 하나와 일치하는지를 확인한다. 예를 들어, 아래와 같은 데이터프레임이 있다고 가정해보자. 'lst가 [2.5, 3.0] 이라면 df.loc[df.new_price.isin(lst)] 코드를 실행하면 'new_price' 열의 값이 다음과 같은 결과가 반환됩니다. 📌 2. 일치하는 요소 확인(isin) 형태 : DataFrame.isin(values) 사용법 df.isin(values) value : Iterable, Series, DataFrame, dict등이 올 수 있습니다. Series일 경우 : Index가 일치해야 합니다. DataFrame일 경우 ..

[Pandas] drop_duplicates('컬럼명') 이란?

📌 1. drop_duplicates('컬럼명')? 'drop_duplicates' 는 중복된 값을 확인하고 제거하는 기능을 수행하는 메서드 컬럼명은 중복을 확인하고 제거할 기준이 되는 열을 나타낸다. 예를 들어, 아래와 같은 데이터프레임이 있다고 가정해보자. 'item_name' 열을 기준으로 중복된 행들을 제거하고, 제거된 중복 행이 없는 새로운 데이터프레임을 반환하게 된다. 📌 2. 중복행 제거(drop_duplicates) 형태 : DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False) 사용법 subset : 중복값을 검사할 열, 기분적으로 모든 열을 검사한다. keep : {first / las..

[Pandas] reset_index(drop=True)란?

📌 1. reset_index(drop=True)란 데이터프레임의 인덱스를 재설정하는 메서드입니다. 여기서 'drop=True'는 이전 인덱스를 삭제하고 새로운 인덱스를 할당하는 것을 의미 일반적으로 데이터프레임에는 행을 구별하는 인덱스가 있습니다. 인덱스는 0부터 시작하여 연속적으로 증가하는 수자 또는 고유한 식별자로 표현됩니다. 그러나 데이터프레임을 다양한 작업을 수행하다보면 인덱스가 변경되거나 중복되는 경우가 발생할 수 있습니다. 'reset_index(drop=True)'를 사용하면 이전 인덱스를 삭제하고 0부터 시작하는 새로운 인덱스를 할당하며 'drop=True' 옵션을 사용하면 이전 인덱스를 데이터프레임의 열로 추가하지 않고 버립니다. 예를 들어, 다음과 같은 데이터프레임이 있을 때 이 경우..

[Pandas] Series()와 DataFrame(), DataFrame 관련 메서드

📌 1. Series()와 DataFrame() 구분 Series() DataFram() 데이터 1차원 벡터 데이터 2차원 벡터 데이터 인덱스 행방향 인덱스 (row index) 행, 열 방향 인덱스 (row index), (column indes) 자료구조 하나의 자료형만 가질 수 있는 homogeneous 타입의 container 각각의 열은 서로 다른 자료형을 가질 수 있는 heterogeneous타입의 자료 구조 📌 2. DataFrame 관련 메서드 구분 설명 head() - 상위 5개를 읽어온다. tail() - 하위 5개를 읽어온다. sample() - DataFrame의 행을 인자로 주어지는 숫자만큼 무작위 순서로 읽어온다. - 인자를 입력하지 않을 경우 기본값은 1이다. inro() - ..

[Pandas] 시리즈(Series) / unique() / isnull().. 함수 사용

코드 자세히 보기 링크 : https://github.com/Jungddaseul/AI_study/blob/main/01_Pandas/01_pandas(Series).ipynb GitHub - Jungddaseul/AI_study Contribute to Jungddaseul/AI_study development by creating an account on GitHub. github.com ✏️ 1. 시리즈(Series) - 시리즈는 배열과 유사한 판다스의 데이터 구조 - 각 데이터를 의미를 표시하는 인덱스(indax)를 붙일 수 있다. - 하나의 Series 내에서는 하나의 자료형만 가질 수 있는 homogeneous 타입의 container이다. - 시리즈의 인덱스는 index 속성으로 접근할 수 ..

[Numpy] random 서브패키지 - rand(), shuffle(), choice() ...

random 서브 패키지 seed rand() shuffle() choice() randa() randint() unique() 1. seed 어떤 특정하 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성한다 이런 시작 숫자를 시드(seed)라고한다. seed는 보통 0이나 양의 정수를 사용한다. np.random.seed(0) 2. rand() 0부터 1사이에서 균일한 확률 분포로 실수 난수를 파라미터(인수)만큼 발생시킨 후 리스트 형식으로 변환한다. 3. shuffle() 데이터를 순서를 바꾸는 기능을 수행한다. 4. choice() 이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것을 샘플링(sampling)이라고 하며 이를 위해 choice()를 사용한다..

[Numpy] 집계함수 max(), sum()..

함수 설명 함수 설명 max() 최대값 min() 최소값 mean() 평균 median() 중앙값 sum() 합계 comsum() 누적합계 var() 분산 std() 표준편차 1. 합계 sum() / 평균 mean() 2. 중앙값 median(), 최대값 max() 3. 최소값 min() / 누적합계 cumsum() 4. 상관계수 / 표준편차 std() / 분산 var() 5. 최대값 인덱스 argmax() / 최소값 인덱스 argmin() / 사분위수 percentile()

[Numpy] 넘파이 자료형의 다양한 데이터 타입

1. 넘파이의 다양한 데이터 타입 np.object : 파이썬 객체 타입 np.string_ : 고정자리 스트링 타입 np.unicode_ : 고정자리 유니코드 타임 데이터 타입 설명 bool_ 바이트 형태로 저장되는 Boolean타입 int_ Default integer 타입 intc C int (일반적으로 int32 또는 int64) intp 인덱싱에 사용되는 integer int8 int 형태 (-128 ~ 127) -> (2**8)/2 int16 int 형태 (-32,768 ~ 32,767) int32 int 형태 (-2147483648 ~ 2147483647) int64 int 형태(-922337036854775808 ~ 9223372036854775807) unit8 Unsingde int형태..

728x90
반응형