Data Science/데이터 분석 📊

[데이터분석] 1. 데이터의 이해

SLYK1D 2024. 7. 29. 15:14
728x90
반응형

1. 데이터와 정보

1.1 데이터 (Data)

데이터란 객관적 사실이라는 존재적 특성을 갖는 동시에 추론, 예측, 전망, 추정을 위한 근거를 의미합니다. 종류로는 크게 정성 데이터와 정량 데이터로 나뉘며, 구체적인 정의는 다음과 같습니다. 

① 정성 데이터: 언어, 문자로 기술된 데이터
② 정량 데이터: 수치, 기호, 도형으로 기술된 데이터

데이터는 암묵지와 형식지의 상호작용에 중요한 역할을 하는데, 여기서 말하는 암묵지란, 학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로 드러나지 않는 지식을 의미합니다. 특징으로는 공통화(Socialization), 내면화(Internalization)가 있으며, 이는 시행 착오와 오랜 경험을 통해 개인에게 습득된 무형의 지식이며, 대표적인 예시로는 과학적 발견들이 있습니다. 

위에서 설명한 암묵지와 반대되는 개념이 바로 형식지인데, 형상화된 지식으로 유형의 대상이 있기 때문에 지식의 전달과 공유가 매우 용이합니다. 특징으로는 표줄화(Externalization), 연결화(Combination)라는 특징을 갖습니다. 

 

1.2 지식의 피라미드

우리가 흔히 아는 지식에 대한 단계를 표현한 피라미드로, 총 4단계로 구성됩니다. 

1.2.1 데이터(Data)

개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실이며, 존재 형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미합니다.

 

1.2.2 정보(Information)

데이터의 가공, 처리와 데이터 간 연관관계 속에서 의미가 도출된 것으로, 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고, 그 의미를 부여한 데이터입니다.

 

1.2.3 지식(Knowledge)

데이터를 통해 도출된 다양한 정보를 구조화하여 우의미한 정보를 분류하고, 개인적인 경험을 결합시켜 고유의 지식으로 내재화 된 것입니다. 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물로도 볼 수 있습니다.

 

1.2.4 지혜(Wisdom)

지식의 축적과 아이디어가 결합된 창의적 산물입니다. 근본원리에 대한 깊은 이혜를 바탕으로 도출되는 창의적 아이디어와 동일합니다.

 

2. 데이터베이스 정의와 특징

2.1 데이터베이스의 역사

이번에 알아볼 내용은 데이터베이스인데, 데이터베이스라는 용어의 시작은 1950년대 미국 정부가 전 세계에 산재한 자국 군대의 군비상황을 집중 관리하기 위해 컴퓨터 기술로 구현한 도서관에서 유래되었습니다. 이 후, 1963년 6월 미국 SDC(System Develope Corporation)이 개최한 "컴퓨터 중심의 데이터베이스 개발과 관리"라는 심포지엄에서 공식적으로 사용되었고, 2차 심포지엄에서 시스템을 통한 체계적 관리와 저장을 의미하는 "데이터베이스 시스템"이라는 용어가 탄생하였습니다. 동일한 시기에 C.바크만이 최초의 현대적 의의미의 데이터베이스 시스템인 IDS(Integrated Data System)을 개발하게 됩니다. 

한국의 데이터베이스 사용은 1975년 미국의 CAC(Chemical Abstracts Condensates)가 KORSTIC이라는 서비스를 시작하면서 사용되었습니다. 이 때의 데이터베이스는 CAC 데이터베이스를 자기 테이프 형태로 들여와 배치 방식으로 동작하는 시스템이였습니다. 이 후 국내 데이터베이스 연구 및 개발은 1980년대 중반부터 본격적으로 시작됩니다.

위에서 말한 배치 방식이란, 컴퓨터에 입력시킨 데이터를 일정 기간이나 일정량이 될 때까지 축적해두었다가 일괄적으로 처리하는 방식을 의미합니다. 

 

2.2 데이터베이스의 정의와 특징

2.2.1 용어 정의

데이터베이스란, 동시에 다수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고, 저장, 공급하기 위해 일정한 구조에 따라 편성된 데이터의 집합을 의미합니다. 이는 체계적으로 정렬된 데이터 집합을 의미하며, 현대로 넘어오면서 대용량의 데이터를 저장, 관리, 검색, 이용할 수 있는 컴퓨터 기반의 데이터베이스로 진화하게 됩니다. 

그리고 이러한 데이터베이스를 사용자가 쉽게 구축하고, 유지보수 할 수 있도록 하는 소프트웨어를 가리켜, DBMS(Database Management System) 이라고 부릅니다.

2.2.2 데이터베이스의 구성

2.2.2.1 통합된 데이터(Integrated)
동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미하며, 중복을 배제하나, 경우에 따라서는 불가피하게 중복(최소한의 중복 / 통제된 중복)을 허용하는 데이터를 의미합니다.

2.2.2.2 저장된 데이터(Stored)
컴퓨터가 접근 가능한 저장매체(자기 테이프, 자기 디스크 등)에 저장되어 관리한다는 것을 의미합니다.

2.2.2.3 공용 데이터(Shared)
여러 사용자가 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용한다는 것을 의미합니다. 

2.2.2.4 운영 데이터(Operated)
단순한 데이터의 집합이 아니라 그 조직의 기능을 수행하는 데 없어서는 안 될 필수의 데이터를 의미합니다.

 

데이터베이스가 저장하는 내용은 곧 데이터베이스의 한 상태(State)를 의미합니다. 때문에 새로운 데이터의 삽입, 기존데이터의 삭제, 갱신으로 항상 변화하면서 항상 현재의 정확한 데이터를 유지해야합니다.

 

2.2.3 데이터베이스의 특징

2.2.3.1 실시간 접근성(Real-time Accessibility)
사용자의 질의에 대하여 즉시 처리하여 응답하는 특징을 갖습니다.

2.2.3.2 계속적 변화(Continuous Evolution)
삽입, 삭제 갱신을 통하여 항상 최근의 정확한 데이터를 동적으로 유지하는 특징이 있습니다. 

2.2.3.3 동시 공유(Concurrent Sharing)
여러 사용자가 동시에 원하는 데이터를 공유할 수 있는 특징이 있습니다. 

2.2.3.4 내용에 의한 참조(Content Reference)
데이터베이스에 있는 데이터를 참조할 때, 사용자가 요구하는 데이터 내용에 따라 참조하는 특징을 의미합니다.

2.2.3.5 데이터 논리적 독립성(Independent)
응용 프로그램과 데이터베이스를 독립시킴으로써, 데이터의 논리적 구조를 변경시키더라도, 응용 프로그램은 변경되지 않는 특징입니다.

 

2.3.3 다양한 측면에서의 특성

정보의 축적 및 전달
대량의 정보를 일정한 형식에 따라 정보처리기기가 읽고 쓸 수 있도록 하는 "기계 가독성"과 다양한 방법으로 필요한 정보를 검색하는 "검색 가능성", 정보통신망을 이용해 원거리에서도 즉각 온라인을 이용할 수 있는 "원격 조작성"을 갖습니다.

정보 이용
이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득할 수 있고, 원하는 정보를 정확하고 경제적으로 찾아낼 수 잇다는 특성을 의미합니다.

정보기술 발전
데이터베이스는 정보처리, 검색관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 이끌 수 있습니다.

경제/산업적 측면
다양한 정보를 필요에 따라 신속하게 제공 및 이용할 수 있는 인프라로서 특징을 갖고 있으며, 경제, 산업, 사회활동의 효율성을 제고하고, 국민의 편의를 증진하는 수단으로서의 의미를 가집니다.

 

2.4 데이터베이스 활용

2.4.1 기업내부 데이터베이스

1990년대 중반을 기점으로 이전에는 정보의 수집과 조직 내에서 공유하기 위한 경영정보시스템(MIS)과 기업활동의 영역별로 구축되던 시스템을 구축하면서 사용되었습니다. 1990년 중반 이후에는 데이터마이닝 등 기술이 등장하면서 단순한 정보의 수집에서 벗어나, 분석이 중심이 되는 시스템을 구축학데 되는데, 특히 1995년 랄프 킴벌 박사는 데이터베이스 시장이 OLTP시장과 DW시작으로 양분되고 있다고 언급하였습니다.

이 후 2000년대로 넘어오면서 CRM(고객관계관리, Customer Relationship Management)와 SCM(공급망 관리, Supply Chain Management)로 바뀌게 됩니다. CRM이란, 고객별 구매이력 데이터베이스를 분석해, 고객에 대한 이해를 돕고, 이를 바탕으로 각종 마케팅 전략을 펼치는 것을 의미합니다. SCM은 일반적으로 자재구매 데이터, 생산 및 재고 데이터, 유통 및 판매 데이터, 고객데이터로 구성하여 관리하는 방법을 의미합니다.

분야별로 어떻게 활용되는 지 활용 사례에 대해서는 다음과 같습니다.

2.4.1.1 제조부문
데이터베이스 기술의 가장 중요한 적용문야이먀, 2000년을 기점으로 기존의 부품 테이블이나 제고관리 등의 영역에서 설계, 제조, 유통 전 공정을 포함하는 범위로 확대되었습니다. 이 후 솔루션의 현장도입이 적극적으로 이루어져 클라이언트/서버 기반의 내부 정보시스템을 웹 환경으로 전환하거나, ERP 이후 SCM으로 기능을 확장하는 등의 기업내부 데이터베이스 구축이 이루어졌습니다. 2000년댜 중반 이후부터 인하우스 데이터베이스 구축 투자 증가가 이루어졌으며, 실시간 기업(RTE)이 형성되었습니다.

2.4.1.2 금융부문
1998년 IMF 외환위기 이후, 총체적인 부실을 타파하기 위한 노력이 지속되었고, 이로인해 업무 프로세스 효율화나 e-비즈니스 활성화 금융권 통합 시스템 구축 등이 크게 확산되었습니다. 2000년대 초반에는 데이터베이스간의 정보공유 및 통합이나 고객 정보의 전략적 활용이 주로 이루어지게 되고, 이 후 2000년대 중반으로 접어들면서, DW를 적극적으로 도입하여 관련 DB마케팅을 증대시키기 위한 노력이 가시화되었으며, 인터넷 뱅킹 및 바카슈랑스의 도입으로 대용량 DW를 위한 최적의 BI기반 시스템 구축이 급속도로 올라가게 됩니다.

2.4.1.3 유통부문
전반적인 IT 변화 환경에 맞물려 CRM과 SCM 구축이 이루어졌으며, 특정 지역이나 고객 중심으로 운영되야만 생존할 수 있게 되었으며, CRM 구축은 필연적인 상황으로 되었습니다. 특히 SCM은 전자문서 교환이 본격화되면서, 구축되기 시작했고, 상거래를 위해 각종 인프라 및 KMS(Knowledge Management System)를 위한 별도의 백업 시스템도 구축되었습니다. 

 

2.4.2 사회기반구조로서의 데이터베이스

1990년대 이후 정부부처 중심으로 사회간접자본(SOC)차원에서 EDI(전자문서교환, Electronic Data Interchange)활용이 본격화되면서, 부가가치통신망(VAN)을 통한 정보망이 구축되기 시작했습니다. 이는 단순히 공공DB로서 활용될 뿐만 아니라, 인프라로서 관련 산업에서 유용하게 활용되기 시작했습니다. 

1990년대 후반 이후에는 정보기술이 고도로 발전하면서 데이터베이스 활용이 문서교환 등에 국한되었던 EDI, CALS 등에서 벗어나 국가적으로 필요한 기반 시설(지리, 교통부문)의 데이터베이스 구축이 본격화됩니다. 2000년대부터는 의료, 교육, 행정 등 사회 각 부문으로 공공 DB의 구축 및 이용이 확대되었고, 인터넷의 보편화로 인해 일반 국민들도 가정에서 손쉽게 생활에 필요한 정보를 습득할 수 있었습니다.

2.4.2.1 물류부문
1995년 국가기간 전산망사업으로 확정되어 출범한 종합물류정보망은 1998년에 서비스 개발을 완료해 상용서비스로 제공되었습니다. 종합문류정보망은 CVO(화물운송정보), EDI, 데이터베이스서비스(물류정보), VAN으로 구성되었으며, 이 후 해양수산부의 항만운영정보시스템, 철도청의 철도운영정보시스템, 복합화물터미널망, 항공정보망, 민간기업 물류 VAN을 연결하고, 무역자동화망과 통관자동화망 등의 유관전산망과도 연계해 물류흐름에 따라 모든 업무를 신속하게 처리하도록 했습니다.

2.4.2.2 지리부문
1995년 국가지리정보체계(NGIS) 구축은 국가지형도와 공통주제도, 지하매설물도를 전산화하여 기본 공간정보 데이터베이스를 구축하고, 관련 기술 개발과 함께 범국가적인 활용을 위한 국가 표준 설정과 활용체계를 개발하는 사업으로 시작했습니다. 2000년대 이후부터는 GIS, RS, GPS, IT기술을 통합해 새로운 GIS 응용에 활용하는 4S 통합기술, LBS기술, SIM, 공간 DBMS 등 GIS 관련 정보기술의 비약적인 발전으로 웹 GIS도 실현시켰습니다.

2.4.2.3 교통부문
교통정보는 동적(실시간) 교통정보나 정적(비실시간) 교통정보로 나뉘며, 실시간 교통정보는 지으형 교통시스템(ITS, Intelligence Transport System)이나 방송매체 등에서 교통, 소통을 목적으로 운전자에게 제공되는 교통정보를 의미합니다. 반면, 비실시간 교통정보는 교통정책 및 계획수립 등에 필요한 교통분야별 기초자료 및 통계를 제공하는 데이터베이스를 의미합니다.

2.4.2.4 의료부문
1990년대에 의료정보망이 구축되었고, 1996년부터 53개 기관을 대상으로 의료EDI 상용서비스가 제공되기 시작했습니다. 이 후 2002년 의료법 개정을 통해 전자의무기록이 법적 효력을 갖게되었고, 원격 의료와 전자 처방전이 허용되면서 의료정보시스템은 점차 본 궤도에 이르게 됩니다. 2005년에는 국제 의료정보 전송 표준인 HL7의 국내 표준화 작업에 따라 전국적인 지료정보 공유체계 구축 계획이 수립되었고, 이 후 유비쿼터스가 개발되면서 U헬스 시장이 등장하게 됩니다.

2.4.2.5 교육부문
2003년부터 적용되기 시작한 교육행정보시스템(NEIS)은 과거 학교별로 데이터베이스를 구축해 운영하던 학생, 교원관련 교육정보를 각 시,도 교육청 데이터베이스에 담아놓고, 전국 초,중등학교와 16개 시도 교육청 및 산하 기관, 교육 인적자원부를 인터넷으로 연결해 교무, 학사 뿐만 아니라, 인사, 물품, 회계 등 기타 교육행정 전 업무를 처리하는 시스템으로 확장되었습니다.

 

3. 데이터의 가치와 미래

3.1 빅데이터의 이해

3.1.1 정의와 특징

빅데이터란, 단순히 용량만 방대한 것이 아니라, 복잡성도 증가해서 기존의 데이터 처리 애플리케이션이나 관리 출로는 다루기 어려운 데이터 세트의 집합을 의미합니다. 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이기에, 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집, 발굴 및 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐입니다. 

빅데이터의 특징은 흔히 3V라고 하며, 구체적인 내용은 다음과 같습니다.

① 규모(Volume): 데이터의 양
② 형태(Variety): 데이터 유형과 소스 측면의 다양성
③ 속도(Velocity): 데이터 처리 속도가 급격히 증가

 

또한, 빅데이터를 보는 관점은 좁은 의미, 중간 의미, 넓은 의미에 따라 조금씩 다릅니다. 먼저 좁은 의미로는 3V로 요약되는 데이터 자체의 특성변화에 초점을 둡니다. 다음으로 중간의미로 확장하면 데이터 자체 뿐 아니라, 처리 및 분석 기술의 변화까지 포함하며, 끝으로 넓은 범위의 의미로 보면 인재와 조직적인 변화까지 포함하는 범위로 확대될 수 있습니다. 

위의 내용과 연관하여, 현 시대에서 소통을 위해서는 기존의 작은 데이터 처리분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식으로 정의하는 것이 유용합니다.

 

3.1.2 빅데이터의 출현배경

빅데이터가 등장하면서 미친 영향을 살펴보면 다음과 같습니다. 

산업계
정보가 지속적으로 축적되면서, 기업은 거대한 가치창출이 가능할 만큼 충분한 규모의 데이터를 보유하였고, 질적 변화를 일으킬 기술이 접목되면서 기대 가치를 창출할 수 있게 되었습니다.

학계
인간게놈 프로젝트와 같은 대규모 데이터를 사용하는 학문 분야가 점차 증가함에 따라 통계 도구들도 지속적으로 반전하였습니다. 

기술발전
아날로그에서 디지털로의 변환은 유통 및 저장에 편의성을 제공하였으며, 모바일 시대가 도래하면서, 스마트 단말 이용자가 감석 데이터와 GPS나 거리센서에 의한 상황 데이터를 양산하게 됩니다. 이후 클라우드 컴퓨팅을 통해 정보를 많이 모으면서, 처리 비용은 낮출 수 있게 되었습니다.

 

3.1.3 빅데이터의 기능

제조업, 서비스 분야의 생산성을 획기적으로 끌어올리는 역할이 마치 산업혁명의 석탄, 철의 역할처럼 필수적인 역할을 하였습니다. 뿐만 아니라 21세기의 원유와 같은 역할을 하게 되며, 각종 비즈니스, 공공기관, 대국민 서비스, 경제 성장에 필요한 정보를 제공합니다. 이를 통해 산업 전반의 생산성을 한 단계 향상, 기존에 없던 새로운 범주의 산업을 만들게 되었습니다.

그리고 렌즈와 같이, 각종 질병으로부터 해방 및 게놈 프로젝트를 옽해 얻어진 유전정보를 통해 인류의 건강에 기여할 수 있게 되었으며, 다양한 차원에서 활용되는 개념, 비즈니스 측면에서는 공동 활용의 목저으로 구축된 유/무형의 구조물을 의미하기 때문에, 플랫폼으로서의 역할을 하게 되며, 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공할 것으로 예상됩니다. 

이를 위하 각종 사용자 데이터나 M2M 센서 등에서 수집된 데이터를 가공, 처리, 저장해두고, 데이터에 접근할 수 있도록 API를 공개/제공하였습니다.

 

3.1.4 빅데이터가 만들어내는 본질적 변화

3.1.4.1 사전처리 → 사후처리
필요한 정보만 수집하고, 필요하지 않는 정보는 버림으로써, 당시 시스템으로 달성할 수 있는 효율성을 만들어 냈습니다. 하지만 빅데이터 시대에서는 이미 가치가 있을 것이라고 정해지 특정 조건만 모아서 처리하는 것이 아닌, 데이터를 다양한 방식으로 조합해서 숨은 정보를 찾아내는 것을 의미합니다. 

3.1.4.2 표본조사 → 전수조사
기존에는 데이터수집 비용, 대용량 데이터 처리도구, 비용 등이 모두 걸림돌이 됐기 때문에, 새로운 가치나 지식의 발견을 위해 샘플링 기법을 사용하였습니다. 하지만, 빅데이터 시대에서 데이터 수집 비용은 더 이상 문제되지 않을 만큼 폭발적으로 쏟아져 나왔고, 클라우드 컴퓨팅 기술의 발전에 따라 데이터 처리 비용이 급격히 감소하고 있습니다. 
전수조사의 장점은 샘플링이 주지 못하는 패턴이나 정보를 제공해준다는 데에 있습니다. 샘플링은 분석하는 복적을 정하고 조사하기 때문에 질문이 바뀌면, 질문에 맞춰 재조사를 해야 되지만, 전수 조사는 모아둔 데이터를 질문에 맞춰, 다양한 방식으로 재가공이 가능합니다.

3.1.4.3 질 → 양
데이터의 질보다 양을 강조하며, 데이터가 지속적으로 추가될 때 양질의 정보가 오류정보보다 많기에 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 두고 있습니다. 뿐만 아니라, 데이터의 수가 증가함에 따라 사소한 몇 개의 오류 데이터가 대세에 영향을 주지 못하는 경향이 늘어나기 때문에 활용하는 데이터의 규모가 커짐에 따라 사소한 숫자의 오류는 특정 사업에 착수 여부를 결장하는데 영향을 미치지 않게 됩니다.

3.1.4.4 인과관계 → 상관관계
기존의 과학적 발견법은 이론에 기반해 수집할 변인을 결정하고, 엄격한 실험을 통해 정제된 데이터를 얻어 이론에 맞춰, 분석하고 변인간의 관계를 찾는 방식입니다. 반면, 빅데이터 시대에는 데이터 획득 비용이 기하급수적으로 감소하고, 모든 곳에서 데이터가 넘쳐나며, 비즈니스적 측면에서는 이류를 몰라도 상관관계만으로 분석하는 경우가 많습니다. 이유는 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나기 때문입니다.

 

3.2 빅데이터의 가치와 영향

3.2.1 빅데이터의 가치창출이 어려운 이유

빅데이를 통한 가치창출이 어려운 가장 큰 이유는 데이터가 재사용, 재조합, 다목정용 데이터 개발 등이 일반화되면서, 특정 데이터를 언제, 어디서, 누가 활용할 지 알 수 없게 되고, 이로 인해 가치 산정 또한 어려워지기 때문입니다. 데이터를 한 번 사용하고 버리지 않기 때문에 데이터 풀을 구성하는 자료로서 다른 사람에게 제공할 서비스를 위해서도 활용됩니다. 더 나아가, 데이터는 본래의 목적 이외의 부분에서도 활용되면서 가치를 창출하지만, 이는 2,3차적 목적으로도 사용될 수 있다고 볼 수 있습니다. 

빅데이터 시대에는 데이터가 기존에 없던 가치를 창출함에 따라, 그 가치를 측정하기 어려운 것도 가치 창출이 어려운 이유입니다. 분석기술의 발달 또한 데이터 가치에 영향을 주기 때문입니다. 클라우드 분산 컴퓨팅에서 저렴한 비용에 분석하면서 활용도가 증가하는 사례와 기존에는 정형화한 데이터와 함께 분석할 수 없던 데이터가 텍스트 마이닝 등의 기법으로 분석 가능해진 것도 이와 이어집니다. 뿐만 아니라, 데이터는 기존 사업자에게 경쟁 우위를 제공할 수도 있기 때문에 어떻게 사용되느냐에 따라 각양각색일 수 있습니다.

 

3.2.2 빅데이터의 영향

빅데이터가 가치를 만들어 내는 방식은 크게 5가지가 있습니다. 

① 투명성 제고롤 연구개발 및 관리효율성 제고
② 시뮬레이션을 통한 수요포착 및 주요 변수 탐색으로 경쟁력 강화
③ 고객 세분화 및 맞춤 서비스 제공
④ 알고리즘을 활용한 의사결정 보조 및 대체
⑤ 비즈니스 모델과 제품, 서비스의 확산

 

위의 내용에 따라 기업별, 국가별, 개인별로 어떠한 영향을 주는지 살펴보겠습니다. 먼저 기업의 경우에는 소비자의 행동을 분석하고 시장변동을 예측해 비즈니스 모델을 혁신하거나, 신사업을 발굴할 수 있게 됩니다. 원가절감, 제품차별화, 기업활동의 투명성 제고 등에 활용하면 경쟁사보다 강한 경쟁력을 확보할 수도 있고, 기업들의 운용 효율성이 증가하며, 이는 산업 전체 생산성을 향상기키는 효과를 가져옵니다. 결과적으로 국가의 GDP가 올라가는 것과 이어지게 됩니다.

다음으로 국가의 입장에서는 환경 탐색, 상황 분석, 미래 대응으로 나누어볼 수 있는데, 사회변화를 추정하고 각종 재해 관련 정보를 추출하고, 이렇게 수집된 데이터를 바탕으로 사회관계망 분석, 시스템 다이내믹스, 복잡계 이론과 같은 분석 방식을 적용해 미래 의제 도출까지도 가능해집니다. 더 나아가 미래 사회 도래에 대한 법 제동 및 거버넌스 시스템, 정비방향, 미래 성장 전략, 국가 안보 등에도 영향을 미칠 수 있습니다. 

끝으로, 개인의 경우에는 대부분 빅데이터 활용 대상의 위치에 머물러 있지만, 빅데이터를 서비스로 제공하는 기업들이 출현하고 비용이 지속적으로 하락하면서 경제적 여력이 있는 정치인이나 대중 가수 등이 빅데이터를 활용하는 수준입니다. 

 

3.3 빅데이터 활용 기본 테크닉

빅데이터를 활용한 비즈니스 모델은 이미 다얗나 산업과 분야에서 다양한 모델들이 적용되어 매출을 올리고 있습니다. 그렇다면 어떤 방식의 비즈니스 모델이 있는 지 아래에서 구체적으로 다뤄보겠습니다.

 

3.3.1 연관규칙 학습

변인들 간에 주목할 만한 상관관계가 어떤 게 있는지 찾아내는 방법을 의미합니다. (ex. 커피 구매자가 탄산으료를 많이 사는가? 등)

 

3.3.2 유형분석

통계적 분류는 새로운 사건이 속하게 될 범주를 찾아낸느 일이며, 이를 위해 기존 자료를 바탕으로 만들어진 훈련용 분류 틀이 미리 갖춰져 있어야 합니다. (ex. 이 사용자는 어떤 특성의 집단에 속하는 가?)

 

3.3.3 유전 알고리즘

최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜나가는 방법입니다. 
(ex. 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가? / 연료 효율적인 차를 개발하기 위해 어떤 원자재와 엔지니어링을 결합하는가?)

 

3.3.4 기계학습

데이터를 통해 학습할 수 있는 소프트웨어를 포함하고 있으며, 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 일에 초점이 맞춰져 있습니다. (ex. 이메일에서 스팸메일 걸러내기)

 

3.3.5 회귀분석

독립변수를 조작하며, 종속변수가 어떻게 변하는지를 분석해 두 변인간의 관계를 파악합니다.
(ex. 구매자의 나이가 구매차량의 타입에 어떤 영향을 미치는가?)

 

3.3.6 감정분석

특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석합니다. (ex. 새로운 환불정책에 대한 고객의 평가는 어떠한가?)

 

3.3.7 소셜 네트워크 분석

영향력 있는 사람을 찾아낼 수 있으며, 고객 간의 소셜 관계를 파악하기에 용이합니다. (ex. 특정인과 다른 사람이 몇 촌 정도의 관계인가?)

 

3.4 위기 요인과 통제 방안

3.4.1 위기 요인

3.4.1.1 사생활 침해
M2M 시대의 본격화로 인해 정보 수집 센서의 수가 증가하는 것, 개인 정보의 가치가 증가함에 따라, 보다 많은 사업자가 개인정보 습득에 많은 자원을 투자하고 있는 것이 원인입니다. 

3.4.1.2 책임원칙의 훼손
빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 확률도 증가합니다. 대표적인 예시가 영화 "마이너리티 리포트" 입니다. 영화 줄거리를 보면, 특정인의 분석결과에 따라 특정 범죄행위를 할 가능성이 높다는 이유만으로 처벌하게 되면, 민주주의 사회원칙이 크게 훼손됩니다. 따랏 이런 시스템에 의해 부당하게 피해보는 상황을 최소화할 장치를 마련하는 것이 반드시 필요합니다.

3.4.1.3 데이터의 오용
빅데이터는 일어난 일에 대한 데이터에 의존하며, 미래를 예측하는 것을 어느 정도의 정확도(확률)을 갖습니다. 하지만 100% 일어나는 것은 아니므로 예측된 결과에 의존하면 안됩니다.

 

3.4.2 통제 방안

위의 위기 요인에서 살펴본 각각의 위기에 대한 대응책은 다음과 같습니다. 

3.4.2.1 동의에서 책임으로
사용자 정보가 한 번 사용 후 폐기되는 것이 아니라 2, 3차적 목적으로 가공, 유통, 할당됩니다. 따라서 개인 정보 사용으로 발생하는 피해에 대해서는 사용자가 책임을 지도록 해서 개인 정보 사용 주체가 보다 적극적인 보호장치를 강구하게 하는 효과를 만들어냅니다.

3.4.2.2 결과 기반 책임원칙 고수
예측 자료에 의해 불이익을 당할 가능성을 최소화 하는 자리를 마련라는 것이 빅데이터 시대에 꼭 필요합니다. 예시로 살펴본 영화 "마이너리티 리포트"에서의 범죄 예측 프로그램으로 인해 범행을 저지르지 않은, 억울한 사람이 범인으로 몰리는 현상을 방지하는 것이 대표적인 예시라고 볼 수 있습니다. 

3.4.2.3 알고리즘 접근 허용
접근권 제공으로 알고리즘의 희생양을 줄이자는 해결책이며, 더 나아가 객관적 인증방안을 도입하자는 의견도 제시해, 알고리즘이 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문할 수 있습니다. 전문 지식이 없는 사람들은 불이익을 당할 수 있으며,  부당하게 당한 사람들의 입장을 대변해주고, 구제해주는 전문가(ex. 알고리즈미스트)의 양성이 필요합니다.

 

3.5 미래의 빅데이터

3.5.1 빅데이터 활용에 필요한 기본적인 3요소

3.5.1.1 데이터
모드 것의 데이터화(Datafication)를 의미하며, 각종 센서 네트워크를 전방위적으로 구축해 모든 것들이 데이터화 되고 있습니다. 데이터의 가치 부분에서처럼 특정한 목적없이 생산된 데이터라도, 창의적으로 재활용되면서 가치를 창출합니다.

3.5.1.2 기술
진화하는 알고리즘, 인공지능을 말하며, 알고리즘의 지화가 빠르게 진행될 것을 의미합니다. 알고리즘은 데이터 양의 증가에 따라 정확도가 증가하는 경향이 일반적이기 때문에, M2M, IoT의 확산으로 데이터 생산량이 그하급수적으로 증가함에 따라 빅데이터를 다루는 알고리즘의 효율성 역시 기하급수적으로 증가할 것임을 의미합니다. 특히 인공지능 기술은 기존의 데이터 분석법으로 처리가 불가능할 만큼 거대한 규모의 빅데이터 처리에 필수 불가결한 기술로 부상하였으며, 실제 인간보다 빠르고 정확한 판단을 내리는 수준에 도달했습니다.

3.5.1.3 인력
데이터 사이언티스트, 알고리즈미스트가 대표적인 직종이며, 두 직종에 대한 구체적인 설명은 다음과 같습니다. 먼저, 데이터 사이언티스트는 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문인력입니다. 빅데이터의 다각적 분석을 통해 인사이트를 도출하고, 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자이자 전문가입니다. 
반면, 알고리즈미스트는 데이터 사이언티스트가 한 일로 부당하게 피해가 발생하는 것을 막기 위해 필요하며, 수학, 컴퓨터, 통계학을 비롯해 비즈니스 전반에 대한 이해와 알고리즘, 코딩해석능력도 필요한, 종합적인 직군이라고 할 수 있습니다.

 

4. 가치 창조를 위한 데이터사이언스와 전략 인사이트

4.1 빅데이터 분석과 전략 인사이트

4.1.1 빅데이터 열풍과 회의론 

빅데이터가 회의를 느끼게 된 이유 중 하나는 고객관계관리(CRM)을 통해 경험한 부정적인 학습효과가 있습니다. 이는 빅데이터 성공사례가 기존의 분석 프로젝트를 포장해 놓은 것이 대다수였으며, 근본적으로 빅데이터 분석은 기존의 분석과 마찬가지로 데이터에서 가치, 통찰을 끌어내 성과를 창출하는 것이 관건이기 때문입니다. 

 

4.1.2 싸이월드 vs. 페이스북

싸이월드가 페이스북에 밀린 이유 중 하나가 데이터 분석 기반 경영 문화의 부재였습니다. 데이터 분석에 기초해 전략적 통찰을 얻고, 효과적인 의사결정을 내리고, 구체적인 성과를 만들어 내는 체제가 없었기 때문에, 둘다 방대한 트랜잭션 데이터가 생성되는 인터넷 기업이었음에도, 전략적인 분석에 의해 승패가 갈린 대표적인 사례입니다. 이를 통해 전략적 분석과 통찰력 창출을 해야하는 이유의 답을 알 수 있습니다. 

 

4.1.3 빅데이터, BIG 이 핵심이 아니다!

데이터만 갖고 있다해서 만사가 해결된다는 의미는 아닙니다. 왜냐하면, 데이터의 유형이 아니라 유형의 다양성과 관련이 있기 때문입니다. 이렇게 다양한 데이터 소스와 신종 소스를 분석할 수 있는 능력을 가리켜, "빅데이터 이니셔니티브" 라고 부릅니다. 즉, 비즈니스의 핵심에 대해서, 보다 객관적이고, 종합적인 통찰을 줄 수 있는 데이터를 찾는 것이 중요하다는 의미입니다.

 

4.1.4 전략적 통찰이 없는 분석의 함정

빅데이터 회의론의 가장 큰 문제는 빅데이터를 그저 그런 것으로 받아들이도록 아여, 획기적 속성을 제대로 알지 못하게 만든다는 데에 있습니다. 파편화되고, 일차적인 분석을 넘어 전략적으로 통찰력 있는 분석을 수행하고, 이를 조직의 실행 프로세스로 옮기는 것, 데이터 분석에 기초한 전략적 통찰을 갖춘다는 것은 어렵기 때문입니다.

하지만, 1차원적, 부분적인 분석으로 손쉬운 해결책만 찾는 것은 오히려 전략적 통찰이 없는 분석이 될 수 있습니다. 대표적인 사례로 아메리칸 항공 vs. 사우스웨스트 항공의 경우를 들 수 있습니다. 결과부터 이야기하면, 아메리카 항공이 패하게 됬는데, 이유는 다른 항공사들처럼 분석적 접근법을 채택하였지만, 분석이 아무짝에도 쓸모없는 비즈니스 모델을 뒷받침하였기 때문입니다.

 

4.1.5 일차원 분석 vs. 전략도출을 위한 가치 기반 분석

빅데이터는 가치창출이 가능해야하고, 시점은 빠를수록 좋습니다. 그리고 그에 대한 가치는 각 산업의 특성이나 경쟁의 정도, 분석 목적, 분석 활용 수준에 따라 다양해질 수 있습니다. 이에 대응하려면, 일차적인 분석을 통해 분석 경험을 늘려가고, 성공을 거두면 분석의 활용 범위를 점점 넓혀가야만 합니다. 전략적 인사이트를 위한 가치 기반 분석은 인구 통계학적 변화, 경제사회 트랜드, 고객 니즈 변화 등을 고려하고, 대 변화가 어디서 나타날 지도 예측해야하기 때문입니다.

 

4.2 전략 인사이트 도출을 위한 필요역량

4.2.1 데이터 사이언스의 의미와 역할

데이터 사이언스라는  학문은 데이터로부터 의미있는 정보를 추출해내는 학문입니다. 여기서 사용되는 데이터는 정형, 비정형을 막론하고, 인터넷/휴대전화/감시용 카메라 등에서 생성되는 문자, 숫자, 영상정보 등 다양한 유형의 데이터를 대상으로 하며, 단순히 분석만 하는 것이 아니라, 분석과 이를 효과적으로 구현하고 전다하는 과정가지를 포함한 포괄적 개념이기 때문에 총제적 접근법을 사용합니다.

4.2.2 데이터 사이언스의 구성요소

데이터 사이언스라는 학문은 아래 그림처럼 크게 3가지 기술이 통합 및 복합적인 학문입니다.

또한 데이터 사이언티스트의 덕목 중에서 "호기심"이 있는데, 이는 데이터 사이언티스들의 주요 특징이자, 문제의 이면을 파고들어 질문을 찾고, 검증 가능한 가설을 세우는 능력을 말합니다. 만약 데이터 사이언티스트가 되고자 한다면, 아래와 같은 역량을 보유하기를 권장합니다. 크게 하드스킬과 소프트스킬로 나눠서 볼 수 있고 구체적인 내용은 다음과 같습니다. 

 

4.2.3 데이터 사이언스: 과학과 인문의 교차로

통찰력 있는 분석은 직관, 전략, 경영 프레임워크, 경험이 혼합되어야 합니다. 이를 위해 데이터 사이언티스트에게는 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력, 대화 능력 등이 필요한데, 여기서 나열한 필수 덕목들의 공통점은 바로 인문학적 요소라는 점입니다. 

 

4.2.4 인문학의 부활: 인문학 열풍

위의 내용에서처럼 데이터 사이언스를 구성하는 덕목들은 인문학과 연관이 많이 있을 정도로 빅데이터가 떠오름에 따라 인문학에 대한 열풍도 같이 불고 있습니다. 이를 아래 3가지 측면에서 살펴보겠습니다. 

단순 세계화 → 복잡 세계화
다양성과 각 사회의 정체성, 맥락, 관계, 연결성, 창조성등 이 키워드로 대두됨

비즈니스의 중심이 생산 → 서비스로 이동
제품이 고장나더라도 얼마나 뛰어난 서비스를 제공하는 가와 연관되며, 고객과의 관계 및 커뮤니케이션이 증가함

경제와 산업의 논리가 생산 → 시장창조
현지 사회나 문화와 같은 함축적이고 암묵적인 지식 등의 무형 자산이 중요함 (ex. 스마트폰 → 폰과 pc의 결합으로 새로운 시장을 창조함)

 

4.2.5 데이터 사이언티스트에게 요구되는 인문학적 사고의 특성과 역할

데이터 사이언티스트에게는 호기심 뿐만 아니라 비판에 대해서도 중요하게 생각합니다. 데이터 사이언스에서의 비판은 인문학의 정수이자, 그런 생각을 할 수 밖에 없도록 만들었던 것을 들춰내는 일을 의미합니다. 이와 관련하여, 비판의 단계는 왜 그렇게 생각하는가, 어떻게 그런 식으로 생각했는 가를 집요하게 묻는 단계라고 할 수 있습니다. 그리고 이처럼 집요하게 묻는 것은 그만큼 통찰력 있는 분석을 가능하게 합니다.

이렇게 여러 분석 도구들을 활용해 깊이 파고드는 단계를 통찰력 제시 단계라고 하며, 통계적 모델링 등을 활용해 비판의 단계에 대한 설명을 제공할 수 있습니다. 이와 관련하여, 아래의 표는 정보와 통찰력에 대해 시간대 별로 어떻게 변하는 지, 어떻게 다른 지를 표현한 것입니다. 

  과거 현재 미래
정보 무슨 일이 일어났는가?
(리포팅/보고서 작성)
무슨 일이 일어났나?
(경고)
무슨 일이 일어날 것인가?
(추출)
통찰력 어떻게, 왜 일어났는가?
(모델링, 실험설계)
차선 행동은?
(권고)
최악, 최선의 행동은?
(예측, 최적화, 시뮬레이션)

 

4.2.6 데이터 분석 모델링에서 인문학적 통찰력의 적용 사례 (feat. 인간을 보는 관점)

이번에는 인문학적인 관점으로 데이터 분석 모델을 살펴보겠습니다. 크게 아래 3가지 관점으로 볼 수 있으며, 각 관점에 대한 예시와 함께 살펴보겠습니다. 

① 성향적 관점: 사람의 인상이나 관상으로 판단하는 것
행동적 관점: 어느 순간을 기점으로 태도가 바뀌는 것
③ 상황적 관점: 상황에 따라서 다른 행동을 보이는 경우

 

4.3 빅데이터, 데이터사이언스의 미래

끝으로 빅데이터와 데이터사이언스의 미래에 대해 살펴보겠습니다.

4.3.1 빅데이터의 시대

빅데이터의 시대에서, 데이터는 다양한 측면에서 객관적인 사실을 보여주며, 이러한 객관적 사실들 사이의 관계, 인사이트를 찾아내면 새로운 가치를 창출할 수 있습니다. 

 

4.3.2 빅데이터 회의론을 넘어: 가치 패러다임의 변화

빅데이터와 데이터사이언스가 확산됨에 따라, 세상이 빠르게 변함에 따라 예측하지 못했던 전환이나 위기를 대응할 수 있는 능력이 필요합니다. 즉, 특정 현상이나 어떤 일의 표면을 보고 숨은 뜻, 흐름, 추세를 추측하고 역사적인 사례와 비교해서 어떤 방향으로 가는가를 읽어내는 능력이 필요하며, 이는 가치 패러다임에 대한 변화도 불러오는데, 크게 3단계로 나눠볼 수 있습니다.

4.3.2.1 디지털화(Digitalization)
아날로그 세상을 어떻게 디지털화 시킬 것인가를 의미합니다.

4.3.2.2 연결(Connection)
디지털화 된 정보들과 대상들을 얼마나 효과적이고 효율적으로 제공해주느냐를 말하며, 항상 환경에 영향을 받습니다.

4.3.2.3 에이전시(Agency)
IoT의 등장으로 연결고리가 무한으로 증대되고, 복잡해지기 때문에, 얼마나 효과적이고 믿을 만하게 관리해주는가를 의미합니다.

 

4.3.3 데이터사이언스의 한계와 인문학

데이터사이언스가 유명세를 탔지만, 아무리 정량적인 분석이라도 모든 분석은 가정에 근거합니다. 데이터 분석은 완벽하지 않으며, 데이터에 근거한 판단은 편협한 자기정당화, 근거 없는 대안, 정보가 뒷받침되지 않는 직관보다는 나을 수 있지만, 모델의 능력에 대해 의구심을 가지고, 가정들과 현시의 불일치에 대해 끊임없이 고찰하고, 분석 모델이 예측할 수 없는 위험을 살피기 위해 현실 세계를 봐야합니다.

728x90
반응형