728x90

인공지능, 데이터분석/[Numpy, Pandas] EDA, 문법 17

[Pandas] str_cantains() 문자열을 포함하는지 여부확인

📌 str.contains() 판다스 문자열 메서드란? 문자열을 포함하는지 여부를 확인하는 문자열 메서드입니다. 이 메서드는 주어진 문자열 시리즈 또는 데이터프레임 열에 대해 각 요소를 검사하여 지정된 문자열이 포함되어 있는지 여부를 확인합니다. 기본 형태 : series.str.contains(pat, case=True, regex=True, na=None, flags=0) 사용법 pat : 포함 여부를 확인할 문자열 또는 패턴 case : 대소문자 구분 여부 regex : 정규식을 사용하여 패턴 매칭 여부를 설정하며, 문자열을 정규식으로 해석합니다. na : 결측값(NaN)을 처리하는 방법을 설정. 기본값은 None이며, 결측값을 처리하지 않습니다. flags : 정규식 플래그를 설정합니다. : 'a..

[Pandas] dt.to_period() 메서드

📌 to_period() 메서드 Pandas Series의 날짜 또는 시간 정보를 Period 형식으로 변환하는 메서드입니다. 'dt'는 Series에 접근하여 시계열 데이터를 다룰 수 있는 DateTime 속성입니다. 이 속성을 사용하여 날짜 또는 시간 정보를 다양한 형식으로 변환하고 조작할 수 있습니다. 'dt.to_period(freq)'는 Series의 날짜 또는 시간 정보를 주어진 'freq'로 변환하여 Period 형식으로 반환합니다. 'req'는 변환하려는 기간의 주기를 지정하는 매개변수로, 예를 들어 'M'은 월단위 / 'Q'는 분기단위 / 'A'는 연도단위 등으로 사용될 수 있음 'to_period()' 메서드를 사용하여 날짜 또는 시간 정보를 기간 단위로 변환하면, 해당 기간의 첫 번째..

[Pandas] datetime 모듈에 대해 알기 !

📌 datetime 모듈은 날짜와 시간 정보를 다루는데 사용 datetime 모듈을 import하면, datetime 객체를 사용할 수 있습니다. datetime 객체는 현재 날짜와 시간 정보를 가져오는 now() 메서드와 특정 날짜와 시간 정보를 가지는 객체를 생성하는 등 다양한 메서드와 속성이 있습니다. ● datetime: 날짜와 시간을 동시에 포함하는 객체를 생성하고 조작하는 클래스입니다. - year, month, day, hour, minute, second 등의 속성을 사용하여 날짜 및 시간 구성요소에 접근할 수 있습니다. ● date : 날짜 정보만을 포함하는 객체를 생성하고 조작하는 클래스입니다. - year, month, day 등의 속성을 사용하여 날짜 구성요소에 접근할 수 있습니다...

[Pandas] map(), apply() 메서드

📌 map() 메서드 Serise의 각 원소에 대해 함수를 적용하여 변환한다. 일반적으로 값 간의 일대일 매핑을 수행하는데 사용됩니다. 예를 들어, 특정 열의 값들을 다른 값으로 매핑하거나, 문자열을 숫자로 변환하는 등의 작업에 활용할 수 있습니다. 형태 : map_func: 각 원소에 적용할 함수 또는 변환식을 정의합니다. series: 변환을 적용할 Series 객체입니다. map_func = lambda x: 변환식 series.map(map_func) 기본 사용법 : # 정수를 제곱하여 변환하는 예시 series = pd.Series([1, 2, 3, 4, 5]) map_func = lambda x: x**2 result = series.map(map_func) print(result) 출력 : ..

[Pandas] 그룹화 계산(groupby) 메서드란?

📌 groupby() 메서드 데이터를 그룹화하여 연산을 수행하는 메서드 입니다. 형태 : DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=NoDefault.no_default, observed=False, dropna=True) 사용법 by : 그룹화할 내용입니다. 함수, 축, 리스트 등이 올 수 있음 axis : 그룹화를 적용할 축 level : 멀티 인덱스의 경우 레벨을 지정할 수 있음 as_index : 그룹화할 내용을 인덱스로 할지 여부/ False이면 기존 인덱스가 유지됨 sort : 그룹키를 정렬할지 여부 group_keys : apply메서드 사용시 결과에 따라 그룹..

[Pandas] .isin() 메서드란?

📌 1. .isin(리스트)? '.isin(리스트)' 는 열의 값이 리스트에 속하는지 여부를 확인하는 메서드 각 행의 값이 주어진 리스트의 요소 중 하나와 일치하는지를 확인한다. 예를 들어, 아래와 같은 데이터프레임이 있다고 가정해보자. 'lst가 [2.5, 3.0] 이라면 df.loc[df.new_price.isin(lst)] 코드를 실행하면 'new_price' 열의 값이 다음과 같은 결과가 반환됩니다. 📌 2. 일치하는 요소 확인(isin) 형태 : DataFrame.isin(values) 사용법 df.isin(values) value : Iterable, Series, DataFrame, dict등이 올 수 있습니다. Series일 경우 : Index가 일치해야 합니다. DataFrame일 경우 ..

[Pandas] drop_duplicates('컬럼명') 이란?

📌 1. drop_duplicates('컬럼명')? 'drop_duplicates' 는 중복된 값을 확인하고 제거하는 기능을 수행하는 메서드 컬럼명은 중복을 확인하고 제거할 기준이 되는 열을 나타낸다. 예를 들어, 아래와 같은 데이터프레임이 있다고 가정해보자. 'item_name' 열을 기준으로 중복된 행들을 제거하고, 제거된 중복 행이 없는 새로운 데이터프레임을 반환하게 된다. 📌 2. 중복행 제거(drop_duplicates) 형태 : DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False) 사용법 subset : 중복값을 검사할 열, 기분적으로 모든 열을 검사한다. keep : {first / las..

[Pandas] reset_index(drop=True)란?

📌 1. reset_index(drop=True)란 데이터프레임의 인덱스를 재설정하는 메서드입니다. 여기서 'drop=True'는 이전 인덱스를 삭제하고 새로운 인덱스를 할당하는 것을 의미 일반적으로 데이터프레임에는 행을 구별하는 인덱스가 있습니다. 인덱스는 0부터 시작하여 연속적으로 증가하는 수자 또는 고유한 식별자로 표현됩니다. 그러나 데이터프레임을 다양한 작업을 수행하다보면 인덱스가 변경되거나 중복되는 경우가 발생할 수 있습니다. 'reset_index(drop=True)'를 사용하면 이전 인덱스를 삭제하고 0부터 시작하는 새로운 인덱스를 할당하며 'drop=True' 옵션을 사용하면 이전 인덱스를 데이터프레임의 열로 추가하지 않고 버립니다. 예를 들어, 다음과 같은 데이터프레임이 있을 때 이 경우..

[Pandas] Series()와 DataFrame(), DataFrame 관련 메서드

📌 1. Series()와 DataFrame() 구분 Series() DataFram() 데이터 1차원 벡터 데이터 2차원 벡터 데이터 인덱스 행방향 인덱스 (row index) 행, 열 방향 인덱스 (row index), (column indes) 자료구조 하나의 자료형만 가질 수 있는 homogeneous 타입의 container 각각의 열은 서로 다른 자료형을 가질 수 있는 heterogeneous타입의 자료 구조 📌 2. DataFrame 관련 메서드 구분 설명 head() - 상위 5개를 읽어온다. tail() - 하위 5개를 읽어온다. sample() - DataFrame의 행을 인자로 주어지는 숫자만큼 무작위 순서로 읽어온다. - 인자를 입력하지 않을 경우 기본값은 1이다. inro() - ..

[Pandas] 시리즈(Series) / unique() / isnull().. 함수 사용

코드 자세히 보기 링크 : https://github.com/Jungddaseul/AI_study/blob/main/01_Pandas/01_pandas(Series).ipynb GitHub - Jungddaseul/AI_study Contribute to Jungddaseul/AI_study development by creating an account on GitHub. github.com ✏️ 1. 시리즈(Series) - 시리즈는 배열과 유사한 판다스의 데이터 구조 - 각 데이터를 의미를 표시하는 인덱스(indax)를 붙일 수 있다. - 하나의 Series 내에서는 하나의 자료형만 가질 수 있는 homogeneous 타입의 container이다. - 시리즈의 인덱스는 index 속성으로 접근할 수 ..

728x90
반응형