728x90
반응형
🔵 정형데이터 : CVS, 데이터베이스 테이블
- 거의 모든 트랜잭션 시스템이 백 엔드로 관계형 데이터베이스와 같은 구조적 데이터 저장소를 사용
- 전체 데이터 세트를 스키마/데이터 모델 사용하기 때문에 상대적으로 작업하기 쉽다.
🔵 반정형데이터 : JSON, XML, HTML
- JSON 및 XML은 데이터 교환 또는 모듈 간/시스템 통합을 위해 API에서 사용되는 데이터 교환 형식
- JSON은 키-값 쌍 접근 방식을 따르며, XML 태그 기반 구조를 갖는다.
- 데이터 구조 측면에서는 유연하지만, 작업은 상대적으로 어렵다.
- HTML(Hyper Text Markup Language)은 웹 개발에 사용되는 언어이며, 웹서버에 이 문서를 저장하고 클라이언트가 특정 HTML 페이지를 요청하면 해당 HTML문서를 클라이언트로 전송한다.
🔵 비정형데이터 : 텍스트, 이미지, 영상, 오디오
- 다앙한 소스로부터 얻은 데이터는 특정 구조로 되어있어 있지 않음
🔵 수치형과 범주형 데이터 비교
특징 | 수치형 | 범주형 |
값 | 연속 | 이산 |
순서 | 있음 | 없음 |
모델링 | 연속확률분포 | 범주형/ 이산확률분포 |
기술 통계학 | 스케일링과 정규화 | 모드 |
예측모델 | 회귀 | 분류 |
시각화 기술 | 히스토그램, 라잍차트, 스케터 플럿 | 파이차트, 바 차트 |
- 명목형 : 불연속적, 순서없이 구분만 가능한 자료 예를 들어 인종은 여러 범주가 있는 명목변수이지만 가장 높은 것에서 가장 낮은것으로 또는 그 반대로 정렬하는 특정방법이 없다.
728x90
반응형
'인공지능, 데이터분석 > [ML, DL] 머신러닝, 딥러닝' 카테고리의 다른 글
[머신러닝] 선형회귀모델(개요, 모델가정, 파라미터 추정, 최소제곱법) (0) | 2023.07.28 |
---|---|
머신러닝을 위한 선형대수, 벡터, 행렬 연산 (0) | 2023.06.20 |