[데이터 분석] 14. 서포트 벡터 머신 (SVM)
·
Data Science/데이터 분석 📊
1. 서포트 벡터 머신(SVM)1.1 선형 서포트 벡터1.1.1 서포트 벡터서포트 벡터를 설명하기에 앞서 마진(Margin) 에 대해서 먼저 알아보자. 마진(Margin) 이란 클래스를 구분하는 초평면(결정 경계)과 가장 가까운 훈련 샘플 사이의 거리를 의미한다. 아래 그림에서 점선부분이 이에 해당한다.서포트 벡터 머신에서는 마진을 최대화하는 방향으로 최적화를 진행한다. 이유인 즉슨, 마진이 클 수록 일반화 오차가 낮아지는 경향이 있기 때문이다. 반대로 마진이 작을 수록 모델은 과대적합되기 쉽다. 따라서 마진이 클 수록 좋은데 이때 마진에 걸치는 샘플들을 서포트 벡터라고 한다. 위의 내용을 토대로 보았을 때, 서포트 벡터 머신은 다음과 같이 정의할 수 있다.마진을 최대화 하는 분류 경계면을 찾는 기법위의..
[데이터 분석] 13. 최근접 이웃(k Nearest Neighbor)
·
Data Science/데이터 분석 📊
1. 분류본격적으로 분류와 관련된 알고리즘을 알아보기에 앞서 분류라는 것에 대한 정의를 간략하게 짚고 넘어가고자 한다. 분류란 새롭게 나타난 현상에 대해서 기존이 나눠둔, 혹은 정의된 집합에 배정하는 것을 의미한다. 주로 반응변수(종속변수)가 알려진 다변량 자료를 이용해 모형을 구축하고 이를 통해 새로운 자료에 대한 예측 및 분류를 수행하는 것이 목적이다. 반응 변수가 범주형인 경우에는 분류, 연속형인 경우에는 예측이라 한다. 대표적인 알고리즘으로는 앞쪽에서 살펴본 로지스틱 회귀 부터, 의사결정나무, 서포트벡터, 랜덤 포레스트 등이 있다. 로지스틱 회귀의 경우 회귀 부분에서 언급했기 때문에 이번에는 넘어가도록 하겠다.2. kNN(k Nearest Neighbor)이번 장에서는 분류와 관련된 머신러닝 알고..
[데이터 분석] 12. 회귀Ⅲ : 로지스틱 회귀
·
Data Science/데이터 분석 📊
1. 선형회귀로 분류도 가능할까?이전 장까지해서 회귀모델에 대해 알아봤다. 주로 수치형 변수들을 사용해 특정 목표 변수의 값을 예측하는 문제를 많이 풀어봤는데, 현실에서는 특정 수치를 예측하는 문제도 있지만, 어떤 분류에 속하냐와 같이 분류와 관련된 문제들도 존재한다. 그렇다면, 지금까지 배운 회귀모델을 사용해 분류에 대한 문제도 해결할 수 있을까?이를 위해 분류문제로 대표적인 아이리스 데이터 셋을 사용해 회귀모델을 사용해 분류해보자. 아는 사람들은 알겠지만 아이리스 데이터 셋은 꽃잎의 크기와 길이 등을 사용해 해당 꽃이 Setosa, Versicolor, Virginica 중 하나로 분류하는 것을 목표로 한다. 구체적인 데이터는 아래 예시를 통해서 살펴보자. import numpy as npimport..
[데이터 분석] 11. 회귀Ⅱ: 규제
·
Data Science/데이터 분석 📊
1. 규제 (Regularization)회귀모델에서의 규제란, 부가정보의 손실을 더해 과대적합 문제를 방지하는 방법이며, 복잡도에 대한 페널티를 유도해 모델 파라미터의 값을 감소시킨다. OLS (Ordinary Least Squares, 최소 제곱 회귀)라고 불리는 회귀모델의 일종이며, 과대적합과 부적합 사이의 균형 조정 파라미터로 볼 수 있다. 주로 유전정보나 텍스트 마이닝 같은 입력 파라미터가 너무 많은 문제에 적용되며, 가장 많은 이용방법은 릿지회귀(Ridge) 와 라쏘회귀(Lasso), 엘라스틱넷(ElasticNet)이 있다. 한편, 규제를 적용했을 때 다음과 같은 효과를 볼 수 있다.규제의 효과 - 모델 트레이닝 속도가 극단적으로 빠르다. - 변수 중요도 정보를 제공한다. - 평가가 극단적으로 ..
[데이터분석] 10. 회귀Ⅰ: 선형회귀
·
Data Science/데이터 분석 📊
1. 회귀 (Regression)영국의 유전학자 갈튼이 생각한 문제로, 출력 변수와 입력변수가 선형관계를 가정하는 단순한 통계 분석 기법으로 하나 이상의 특성과 연속적인 타깃 변수 사이의 관계를 선형일것이다는 가정하에 모델링 하는 것이다. 일반적으로 결과에 대한 충격을 추정하거나 미래를 추론하는 데이터 간의 복잡한 관계를 모델화하는 데 사용되며, 데이터에 대한 추정이 참/거짓인지를 판별할 때도 사용된다.회귀는 입력변수의 개수에 따라 단순선형회귀(단변량 회귀)와 다중선형회귀(다변량 회귀)로 종류를 나눠볼 수 있으며, 일반적인 머신러닝 문제들은 다변량 회귀(다항회귀)로 접근한다.1.1 단순선형회귀먼저 단순선형회귀에 대해 알아보자. 하나의 특성(설명변수) 과 연속적인 타겟(응답변수) 간의 관계를 모델링한다. ..
[데이터 분석] 9. 통계분석Ⅳ: 추정 & 가설검정 - 실습편
·
Data Science/데이터 분석 📊
0. 들어가면서위에서 설명했던 개념들을 이용해 어떻게 가설검정을 하고, 결과를 해석하는지를 알아보자. 우선 시작하기에 앞서 가설검증은 가설을 어떻게 설정하느냐에 따라 단측검정과 양측검정으로 나눠볼 수 있다. 단측검정은 기각역에 의해 왼쪽, 오른쪽으로 나눠지며, 한 쪽의 검정통계량을 이용해서 유의수준을 판단하는 검정방법이고, 양측검정은 귀무가설, 대립가설이 모두 존재하는 상황에서 양 끝단을 합쳐 유의수준을 판단하는 검정방법이다. 이를 토대로 아래 여러가지의 상황에 대한 가설검정을 어떻게 진행하는지를 살펴보도록 하자. 참고로 실습편인 만큼 예제와 코드가 많아 다른 글들보다 길이가 길며, 필요한 부분을 검색해서 보는 것도 추천한다.1. 단일집단에 대한 가설검정먼저 단일집단인 경우에 대한 가설검정 하는 방법을 ..
[데이터 분석] 8. 통계분석Ⅲ: 추정 & 가설검정 - 이론편
·
Data Science/데이터 분석 📊
1. 추정가설검정에 대해 설명하기 앞서, 먼저 가설을 세우기 위한 기초단계를 먼저 알아보도록 하자. 바로 추정이라는 것인데, 추정에 대한 사전적인 의미는 "입력된 자료가 불완전하거나 불확실하더라도 사용할 수 있는 계산 결과의 근삿값" 을 의미한다. 이를 통계에서는 "모집단을 대표할 수 있는 일부를 표본으로 추출하여 분석한 통계량을 통해 모집단의 특징(모수)을 예측하는 과정"이라고 할 수 있다. 이렇게 통계량을 통해 모집단의 특징을 예측하는 과정을 통계적 추론이라고 하며, 대표적으로 추정과 가설검정이 있다. 추정은 모수를 어떤 값으로 정의하는가에 따라 크게 점추정과 구간추정으로 나눌 수 있다. 점추정은 "모수들 중에 가장 알맞는(참인) 값이라 여겨지는 하나의 모수를 선택하는 것"이다. 쉽게 말해서, 모수를..
[데이터 분석] 7. 통계분석 Ⅱ: 확률과 분포
·
Data Science/데이터 분석 📊
1. 확률일상에서 우리는 어떤 일이 일어날 가능성에 대해서 "확률은 ~%야" 라고 할 정도로 일어날 일에 대한 가능성이나 믿음의 척도로 사용한다. 실제 사전에서도 어떤 일이 일어날 가능성 또는 개연성으로 정의하고 있다. 이번 장에서는 확률을 수학적으로 어떻게 표현할 수 있는지 알아보자.1.1 확률표본, 표본 공간 그리고 사건확률을 수학적으로 표현하기에 앞서, 우리는 사건, 확률표본, 표본공간이라는 용어에 대해서 알아야한다. 앞서 말한데로 확률이라는 것은 어떤 사건이 일어날 가능성이라했다. 여기서 말하는 사건이 어떤 것을 의미하는지, 대상은 누구인지, 사건이 대상에게 어느정도로 영향을 주는 지에 대해 정의가 되어야 비로소 확률을 이야기 할 수 있다. 각각의 용어에 대한 자세한 설명은 다음과 같다. 1.1...
[데이터분석] 6. 통계 분석Ⅰ: 모집단 & 표본
·
Data Science/데이터 분석 📊
1. 통계학이란?데이터 분석에 대해서 알아보면 통계적인 지식이 반드시 필요하다는 것을 알 수 있다. 그렇다면 통계학은 뭘까? 통계학에 대한 정의를 사전에서 찾아보면 다음과 같다.통계학산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고, 정리 및 분석하는 방법을 연구하는 수학의 한 분야즉, 자료로부터 유용한 정보를 이끌어내는 학문이라고 할 수 있다. 유용한 정보를 이끌어내는 작업에는 자료의 수집과 정리, 그리고 이를 해석하는 방법 등을 모두 포함한다.2. 모집단과 표본2.1 모집단유용한 정보를 이끌어 내기 위해서는 자료로부터 살펴볼 대상이 필요하고, 대상을 통해 어떤 현상을 살펴볼 지, 살펴본 현상을 통해 어떤 결과를 말할 지에 대한 주장을 정의해야한다. 통계학에서는 살펴볼 대상을 가리켜 모집단이라..
[데이터 분석] 5. 데이터 전처리 Ⅱ: 정규화, 표준화
·
Data Science/데이터 분석 📊
0. 들어가면서이번 장에서 다루게 되는 정규화 및 표준화에 대한 이야기는 데이터 분석 뿐만 아니라 머신러닝, 딥러닝을 사용하기 위해서 기본이 되는 이야기이자, 매우 중요한 이야기가 될 것이다. 막대한 양의 데이터를 다루기 위해 데이터가 어떻게 분포하는 지에 따라 성능에 크게 영향을 줄 수 있기 때문이다. 그렇기 때문에 분석 및 모델학습에 사용되는 변수들이 최대한 비슷한 영향력을 가질 수 있도록 데이터를 변환해주어야 한다. 이번 장에서는 데이터를 변환하는 기술 중 기본이 되는 정규화와 표준화에 대해 알아보고, 서로 어떤 차이가 있고, 어떤 때에 활용되면 좋은지 등에 대해서 다뤄볼 예정이다. 1. 정규화 (Normalization)먼저 데이터 정규화(Normaliztion) 에 대해서 알아보자. 데이터 분석..
SLYK1D
'Data Science' 카테고리의 글 목록 (2 Page)