[데이터 분석] 4. 데이터 전처리 Ⅰ : 결측치 & 범주형
·
Data Science/데이터 분석 📊
0. 시작하면서 데이터 분석 접해봤다면 "전처리는 데이터분석의 전 과정 중 80%에 해당한다."는 이야기를 들었을 것이다. 그만큼 데이터를 분석하기에 앞서 분석가가 사용할 데이터를 얼마나 잘 가공하느냐에 따라 분석의 성공여부가 갈릴 수 있다는 말이기도 하다. 그리고 케글이나 데이터 공모전에 나오는 데이터는 잘 가공된 데이터를 사용하지만, 실제로 현업에 가면 날 것의 데이터를 내가 어떻게, 어느 정도로 가공하느냐에 따라 사용 가능한 범위도 달라지고, 분석의 깊이도 달라진다는 것을 많이 느끼고 있다. 그만큼 분석에 있어 전처리에 대한 방법이 중요하며, 이번 장과 다음 장까지는 기본적인 전처리 방법을 다룰 예정이며, 이 후에도 추가적인 방법들을 더 다뤄볼 예정이다. 이번 장에서는 기본적인 전처리 중 NULL ..
[데이터분석] 3. 데이터 자료구조 Ⅱ: R
·
Data Science/데이터 분석 📊
0. 시작하기 전에앞서 파이썬에서와 마찬가지로 R은 기본적으로 통계 프로그래밍을 위한 언어이지만, 최근 Shiny 와 같은 동적 웹 애플리케이션 생성 등 다양한 기능을 지원하고 있다. 때문에 이번 장에서는 데이터 자료 구조에 대한 기본적인 개념만 살펴볼 예정이며, 좀 더 자세한 설명을 필요로 한다면 "R Basic" 에서 관련된 내용을 찾아볼 수 있다.1. 스칼라스칼라란, 단일 차원의 값을 의미하며, 대표적으로 숫자 1, 2, 3 등을 예로 들 수 있다. R에서는 데이터 타입의 기본이 벡터이며, 스칼라는 길이가 1인 벡터와 같다고 볼 수 있다. 정수, 부동소수 등과 같은 모든 숫자형 데이터 타입과 문자열, 불리언 값(진리값)을 지원하며, 데이터가 없음을 의미하는 "NA", 값이 미정임을 의미하는 NULL..
[데이터 분석] 2. 데이터 자료구조Ⅰ: Python
·
Data Science/데이터 분석 📊
0. 시작하기 전에본래 파이썬의 자료구조에는 튜플, 리스트, 사전, 셋에 대한 내용을 다뤄야하지만, 해당 내용은 꼭 데이터 분석을 위해서 뿐만 아니라, 파이썬을 활용한 다양한 프로그래밍에서 활용되기 때문에, 이번 장에서는 넘어갈 예정이다. 혹시 필요한 사람이 있다면, "Python Basic" 에서 관련된 내용을 확인하기 바란다.1. N차원 배열(ndarray)numpy라는 라이브러리에 포함된 자료구조로, N차원 배열 객체를 의미하며, 같은 종류의 데이터를 담을 수 있는 다차원 배열이다. 모든 배열은 각 차원의 크기를 알려주는 shape라는 튜플과 배열에 저장된 자료형을 알려주는 dtype 객체를 가지고 있다. ndarray의 astype 메소드를 이용해 배열의 dtype을 다련 형으로 명시적 변경이 가..
[데이터분석] 1. 데이터의 이해
·
Data Science/데이터 분석 📊
1. 데이터와 정보1.1 데이터 (Data)데이터란 객관적 사실이라는 존재적 특성을 갖는 동시에 추론, 예측, 전망, 추정을 위한 근거를 의미합니다. 종류로는 크게 정성 데이터와 정량 데이터로 나뉘며, 구체적인 정의는 다음과 같습니다. ① 정성 데이터: 언어, 문자로 기술된 데이터 ② 정량 데이터: 수치, 기호, 도형으로 기술된 데이터데이터는 암묵지와 형식지의 상호작용에 중요한 역할을 하는데, 여기서 말하는 암묵지란, 학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로 드러나지 않는 지식을 의미합니다. 특징으로는 공통화(Socialization), 내면화(Internalization)가 있으며, 이는 시행 착오와 오랜 경험을 통해 개인에게 습득된 무형의 지식이며, 대표적인 예시로는 과학적 발견들이 있습..
SLYK1D
'Data Science' 카테고리의 글 목록 (3 Page)