728x90

인공지능, 데이터분석 45

[빅분기] T1-3. 결측치 처리, 결측치 비율확인(map, drop 활용)

주어진 데이터에서 결측치가 80%이상 되는 컬럼은 삭제하고, 80%미만인 결측치가 있는 컬럼은 'city'별 중앙값으로 값을 대체하고 'f1'컬럼의 평균값을 출력하시오. 1. 라이브러리 및 데이터 불러오기 import numpy as np import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') df 2. 결측치, shape 확인 및 결측치 비율 확인 df.isnull().sum() df.shape # (100, 8) # 결측치 비율 확인 df.isnull().sum() / df.shape[0] # 80% 이상 결측치 컬럼 삭제 df.drop(['f3'], axis = 1) 3. 도시확인 및 도시별 중앙값..

[Python 문법] 파이썬 리스트 컴프리헨션(comprehension)

▶ 리스트 comprehension 문법 - 리스트 안에 식, for 반복문, if 조건문 등을 지정하여 리스트를 생성하는 것을 리스트 컴프리헨션(list comprehension)이라고한다. - comprehension은 능력, 이해력, 시험 등의 뜻도 있지만, 어떤 것을 잡아서 담아둔다라는뜻이 있다. - 개념적으로 "리스트 표현식" 이라고 할 수 있다. - 리스트 내포, 리스트 내장, 리스트 축약, 리스트 해석 등으로 불린다. ● [ 표현식 for 항목 in 반복가능객체 if 조건문] ● list(식 for 변수 in 리스트) 참고 | 대괄호와 list() 리스트 표현식 list방식은 C언어, 대괄호방식은 파이썬 다운코드이다. 따라서 리스트 표현식은 대괄호 방식을 사용하는 것이 좋다. ▶ 반복문을 이..

[혼공학습단 9기 / SQL] 인덱스, 뷰, 스토어드 프로시저

02-3 데이터베이스 개체 ■ 데이터베이스 개체 3가지 설명_1주차 선택 미션 1. 인덱스(INDEX) : 책의 '찾아보기'와 비슷한 개념 : 실제로 인덱스를 잘 활용하지 못해 시스템의 성능이 전체적으로 느려지는 일이 흔하게 발생 : 아래와 같이 코드를 실행할 경우 그냥 SELECT구문만 써서 찾는것보다 속도가 빠름 : Full Table Scan -> Non-Unique Key Lookup으로 변경됨 CREATE INDEX idx_member_name ON member(member_name); SELECT * FROM member WHERE member_name = '아이유'; 2. 뷰(VIEW) : 보안 강화, SQL문 간단히 사용, '가상의 테이블' : 실제 데이터를 가지고 있지 않으며, 진짜 테이..

[혼공학습단 9기 / SQL] 데이터베이스 구축, 1주차 미션

02-2 데이터베이스 시작부터 끝까지 ■ 데이터베이스 구축 절차 데이터베이스 만들기 → 테이블 만들기 → 데이터입력/수정/삭제하기 → 데이터 조회/활용하기 ■ 데이터베이스 만들기 이름은 show_db로 데이터베이스(스키마) 생성 CREATE SCHEMA 'shop_db'; ■ 테이블 만들기 테이블 설계하기 -> 열 이름과 데이터 형식을 지정하기 CREATE TABLE 'shop_db', 'member'( 'member_id' CHAR(8) NOT NULL, 'member_name' CHAR(5) NOT NULL, 'member_addr" CHAR(20) NULL, PRIMARY KEY('member_id')); CREATE TABLE 'shop_db', 'product' ( 'product_name' C..

[혼공학습단 9기 / SQL] DBMS 종류, 데이터베이스용어

■ DBMS 정의 - 데이터베이스를 관리하고 운영하는 소프트웨어 - Database Management System ■ 관련용어 용어 설명 MySQL 대표적인 관계형 DBMS MariaDB MySQL 초기 개발자가 오라클 사를 퇴사한 후 만든 DBMS. MySQL과 상당히 유사하며 완전 무료로 사용 가능 MySQL Server MySQL의 여러 소프트웨어 중 엔진 기능을 하는 핵심 소프트웨어(DBMS) MySQL Workbench MySQL 서버에 접속/연결하기 위한 클라이언트 도구. 이곳에 SQL 문을 입력하고 실행함 ■ 데이터베이스 구성도 ■ 관련용어 용어 약자 설명 data 단편적인 정보 table 데이터를 입력하기 위한 표 형태 Database DB 데이터의 저장소 Database Managemn..

[빅분기] T1-2. 이상치를 찾아라(소수점 나이)

주어진 데이터에서 이상치(소수점 나이)를 찾고 올림, 내림, 버림(절사)했을때 3가지 모두 이상치 'age' 평균을 구한 다음 모두 더하여 출력하시오. 1. 라이브러리 및 데이터 불러오기 2. 소수점 데이터 찾기 3. 올림, 내림, 버림 값의 평균값 구하기 4. 올림, 내림, 버림 평균 합계구하기 1. 라이브러리 및 데이터 불러오기 import numpy as np import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') df 2. 소수점 데이터 찾기 df = df[df['age'] - np.floor(df['age']) != 0] df # 예를 들어 1.0 - 1.0 = 0 이라서 소수점 데이터가 아님 ..

[빅분기] T1-1. 이상치를 찾아라(IQR)활용하기

이상치를 찾아라 데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오. 1. EDA작업 ( 데이터 결측값, shape확인) 2. IQR 구하기 3. 최솟값 = Q1 - 1.5 * (Q3 - Q1) 4. 최댓값 = Q3 - 1.5 * (Q3 - Q1) 5. Fare 이상치 찾기 6. 이상치 데이터 여성 수 구하기 1. EDA작업 - null 값 확인하기 - 구하고자 하는게 'Sex'와 'Fare'이기 때문에 결측값 처리 없이 작업진행하기 2~5. IQR, 최솟값, 최댓값, 'Fare' 이상치 구하기 # 2번 Q3 = np.percentile(df['Fare'], 75) Q1 = np.percentile(df['Fare'], 25) IQR = Q3-Q1 # 3~5번 o..

[Python 문법] 파이썬 내장함수 enumerate

▶ enumerate는 '열거하다'라는 뜻이다. 이 함수는 시퀀스자료형(리스트, 튜플, 문자열)을 입력받아 인덱스 값을 포함하는 객체를 반환한다. ▶ enumerate를 for문과 함계 사용하면 자료형의 index와 그 값을 쉽게 알 수 있다. ▶ for문처럼 반복되는 구간에서 객체가 현재 어느 위치에 있는지 알려 주는 인덱스 값이 필요할 때 사용하면 유용하다. 예시 for i, name in enumerate(['abc', 'banana', 'apple']): print(i, name) -------------------------------------- 0 abc 1 banana 2 apple

[Python 문법] input(), sys.stdin.readline(), sys.stdin.readline().strip()

▶ input() 내장함수는 parameter로 prompt message를 받을 수 있다. 또한 입력받은 개행 문자를 삭제시켜서 리턴한다. ▶ sys.stdin.readline()은 prompt message를 인수로 받지 않고, 개행 문자를 포함한 값을 리턴한다. ▶ 결론적으로 input() 내장함수는 sys.stdin.readline()과 비교해서 prompt message를 출력하고, 개행 문자를 삭제한 값을 리턴하기 때문에 느리다.

728x90
반응형