728x90

판다스 8

[Pandas] str_cantains() 문자열을 포함하는지 여부확인

📌 str.contains() 판다스 문자열 메서드란? 문자열을 포함하는지 여부를 확인하는 문자열 메서드입니다. 이 메서드는 주어진 문자열 시리즈 또는 데이터프레임 열에 대해 각 요소를 검사하여 지정된 문자열이 포함되어 있는지 여부를 확인합니다. 기본 형태 : series.str.contains(pat, case=True, regex=True, na=None, flags=0) 사용법 pat : 포함 여부를 확인할 문자열 또는 패턴 case : 대소문자 구분 여부 regex : 정규식을 사용하여 패턴 매칭 여부를 설정하며, 문자열을 정규식으로 해석합니다. na : 결측값(NaN)을 처리하는 방법을 설정. 기본값은 None이며, 결측값을 처리하지 않습니다. flags : 정규식 플래그를 설정합니다. : 'a..

[Pandas] dt.to_period() 메서드

📌 to_period() 메서드 Pandas Series의 날짜 또는 시간 정보를 Period 형식으로 변환하는 메서드입니다. 'dt'는 Series에 접근하여 시계열 데이터를 다룰 수 있는 DateTime 속성입니다. 이 속성을 사용하여 날짜 또는 시간 정보를 다양한 형식으로 변환하고 조작할 수 있습니다. 'dt.to_period(freq)'는 Series의 날짜 또는 시간 정보를 주어진 'freq'로 변환하여 Period 형식으로 반환합니다. 'req'는 변환하려는 기간의 주기를 지정하는 매개변수로, 예를 들어 'M'은 월단위 / 'Q'는 분기단위 / 'A'는 연도단위 등으로 사용될 수 있음 'to_period()' 메서드를 사용하여 날짜 또는 시간 정보를 기간 단위로 변환하면, 해당 기간의 첫 번째..

[Pandas] datetime 모듈에 대해 알기 !

📌 datetime 모듈은 날짜와 시간 정보를 다루는데 사용 datetime 모듈을 import하면, datetime 객체를 사용할 수 있습니다. datetime 객체는 현재 날짜와 시간 정보를 가져오는 now() 메서드와 특정 날짜와 시간 정보를 가지는 객체를 생성하는 등 다양한 메서드와 속성이 있습니다. ● datetime: 날짜와 시간을 동시에 포함하는 객체를 생성하고 조작하는 클래스입니다. - year, month, day, hour, minute, second 등의 속성을 사용하여 날짜 및 시간 구성요소에 접근할 수 있습니다. ● date : 날짜 정보만을 포함하는 객체를 생성하고 조작하는 클래스입니다. - year, month, day 등의 속성을 사용하여 날짜 구성요소에 접근할 수 있습니다...

[Pandas] .isin() 메서드란?

📌 1. .isin(리스트)? '.isin(리스트)' 는 열의 값이 리스트에 속하는지 여부를 확인하는 메서드 각 행의 값이 주어진 리스트의 요소 중 하나와 일치하는지를 확인한다. 예를 들어, 아래와 같은 데이터프레임이 있다고 가정해보자. 'lst가 [2.5, 3.0] 이라면 df.loc[df.new_price.isin(lst)] 코드를 실행하면 'new_price' 열의 값이 다음과 같은 결과가 반환됩니다. 📌 2. 일치하는 요소 확인(isin) 형태 : DataFrame.isin(values) 사용법 df.isin(values) value : Iterable, Series, DataFrame, dict등이 올 수 있습니다. Series일 경우 : Index가 일치해야 합니다. DataFrame일 경우 ..

[Pandas] drop_duplicates('컬럼명') 이란?

📌 1. drop_duplicates('컬럼명')? 'drop_duplicates' 는 중복된 값을 확인하고 제거하는 기능을 수행하는 메서드 컬럼명은 중복을 확인하고 제거할 기준이 되는 열을 나타낸다. 예를 들어, 아래와 같은 데이터프레임이 있다고 가정해보자. 'item_name' 열을 기준으로 중복된 행들을 제거하고, 제거된 중복 행이 없는 새로운 데이터프레임을 반환하게 된다. 📌 2. 중복행 제거(drop_duplicates) 형태 : DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False) 사용법 subset : 중복값을 검사할 열, 기분적으로 모든 열을 검사한다. keep : {first / las..

[Pandas] reset_index(drop=True)란?

📌 1. reset_index(drop=True)란 데이터프레임의 인덱스를 재설정하는 메서드입니다. 여기서 'drop=True'는 이전 인덱스를 삭제하고 새로운 인덱스를 할당하는 것을 의미 일반적으로 데이터프레임에는 행을 구별하는 인덱스가 있습니다. 인덱스는 0부터 시작하여 연속적으로 증가하는 수자 또는 고유한 식별자로 표현됩니다. 그러나 데이터프레임을 다양한 작업을 수행하다보면 인덱스가 변경되거나 중복되는 경우가 발생할 수 있습니다. 'reset_index(drop=True)'를 사용하면 이전 인덱스를 삭제하고 0부터 시작하는 새로운 인덱스를 할당하며 'drop=True' 옵션을 사용하면 이전 인덱스를 데이터프레임의 열로 추가하지 않고 버립니다. 예를 들어, 다음과 같은 데이터프레임이 있을 때 이 경우..

[Pandas] 시리즈(Series) / unique() / isnull().. 함수 사용

코드 자세히 보기 링크 : https://github.com/Jungddaseul/AI_study/blob/main/01_Pandas/01_pandas(Series).ipynb GitHub - Jungddaseul/AI_study Contribute to Jungddaseul/AI_study development by creating an account on GitHub. github.com ✏️ 1. 시리즈(Series) - 시리즈는 배열과 유사한 판다스의 데이터 구조 - 각 데이터를 의미를 표시하는 인덱스(indax)를 붙일 수 있다. - 하나의 Series 내에서는 하나의 자료형만 가질 수 있는 homogeneous 타입의 container이다. - 시리즈의 인덱스는 index 속성으로 접근할 수 ..

[pandas] 06-02. 결측값 제거(dropna)

▶ 결측값 제거(dropna) - 기본 사용법 DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False) axis : {0: index / 1: columns} 결측치 제거를 진행할 레이블 how : {'any' : 존재하면 제거 / 'all' : 모두 결측치면 제거} 제거할 유형 - 포함만 시켜도 제거할지, 전부 NA여야 제거할지 정할 수 있음 tresh : 결측값이 아닌 값이 몇 개 미만일 경우에만 적용시키는 인수 - 예를들어, tresh값이 3이라면 결측값이 아닌 값이 3개 미만일 경우에만 dropna 메서드 수행 subset : dropna메서드를 수행할 레이블 지정 inplace : 원본을 변경할지의 여부 - 예시 c..

728x90
반응형