[ADP/ADsP] 1. 데이터 이해

Certification/ADP&ADsP 🪪

[ADP/ADsP] 1. 데이터 이해

SLYK1D 2024. 10. 16. 16:49

728x90

1. 데이터와 정보

1.1 데이터

데이터란 객관적 사실이라는 존재적 특성을 갖는 동시에 추론, 예측, 전망, 추정을 위한 근거를 의미한다. 종류로는 크게 정성 데이터와 정량 데이터로 나뉘며, 구체적인 정의는 다음과 같다.

1.1.1 정성 데이터

언어, 문자로 기술된 데이터

1.1.2 정량 데이터

수치, 기호, 도형으로 기술된 데이터

데이터는 암묵지와 형식지의 상호작용에 중요한 역할을 한다. 여기서 말한 암묵지란, 학습과 체험을 통해 개인에게 습득되어 있지만 겉으로 드러나지 않는 지식을 의미한다. 특징으로는 공통화(Socialization). 내면화(Internalization) 가 있으며, 이는 시행 착오와 오랜 경험을 통해 개인에게 습득된 무형의 지식이다. 대표적인 예시로는 과학적 발견들이 있다.

암묵지와 반대되는 개념이 바로 형식지인데, 형상화된 지식으로 유형의 대상이 있기 때문에 지식의 전달과 공유가 매우 용이 하다. 특징으로는 표출화(Externalization), 연결화(Combination)라는 특징을 갖는다.

1.2 지식의 피라미드

우리가 흔히 아는 지식에 대한 단계를 표현한 피라미드로 총 4 단계로 구성된다.

1.2.1 데이터(Data)

개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실이며, 존재 형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미한다. (ex. 객관적 사실)

1.2.2 정보(Information)

데이터의 가공, 처리와 데이터 간 연관관계 속에서 의미가 도출된 것으로, 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 (ex. 의미 부여된 사실)

1.2.3 지식(Knowledge)

데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고, 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것이다. 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물로도 볼 수 있다. (ex. 정보에 기초한 생각)

1.2.4 지혜(Wisdom)

지식의 축적과 아이디어가 결합된 창의적 산물이다. 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어와 동일하다. (ex. 지식을 기반으로 한 판단)

1.3 데이터의 정확성

향후 데이터간의 관계 및 현상의 분석(정보)과 적용(지식) 및 미래를 예측하고, 창의적 산물을 도출(지혜)하는데 지대한 영향을 미치며, 가치 창출에 핵심적인 역할을 수행한다.

1.4 데이터베이스 정의와 특징

1.4.1 용어의 연역

데이터베이스라는 용어의 시작은 1950년대 미국 정부가 전 세계에 산재한 자국 군대의 군비상황을 집중 관리하기위해 컴퓨터 기술로 구현한 도서관에서 유래되었다. 이 후,1963년 6월 미국 SDC(System Development Corporation) 이 개최한 “컴퓨터 중심의 데이터베이스 개발과 관리” 심포지엄에서 공식적으로 사용되었으며, 2차 심포지엄에서 시스템을 통한 체계적 관리와 저장을 의미하는 데이터베이스 시스템이라는 용어가 탄생하였다. 동일한 시기에 1963년 C.바크만이 최초의 현대적 의미의 데이터베이스 시스템 IDS(Integrated Data System)을 개발하게 된다.

한국의 데이터베이스 사용은 1975년 미국의 CAC(Chemical Abstracts Condensates)가 KORSTIC을 통해 서비스되면서 이루어짐. 방식은 CAC 데이터베이스를 자기 테이프형태로 들여와 배치(BATCH) 방식으로 이루어졌다. 여기서의 Batch 방식(일괄 처리 방식)이란, 컴퓨터에 입력시킨 데이터를 일정 기간이나 일정량이 될 때까 지 축적해 두었다가 일괄적으로 처리하는 방식을 말한다. 국내 데이터베이스 연구 및 개발은 1980년대 중반부터 본격적으로 시작된다.

1.4.2 데이터베이스의 정의

데이터베이스
데이터베이스란, 동시에 다수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아 들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합이다. 이는 체계적으로 정렬된 데이터 집합을 의미하며. 현대로 넘어오면서 대용량의 데이터를 저장, 관리, 검색, 이용할 수 있는 컴퓨터 기반의 데이터베이스로 진화하게 된다.

DBMS(Database Management System)
사용자가 쉽게 데이터베이스를 구축하고 유지할 수 있도록 하는 소프트웨어를 의미한다.

1.4.3 데이터베이스의 구성 및 특징

데이터베이스 구성

항목	설명
통합된 데이터(Integrated)	동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미하며, 중복을 배제하나 경우에 따라서는 불가피하게 중복을 허용하는 데이터 (최소의 중복 / 통제된 중복)
저장된 데이터(Stored)	컴퓨터가 접근 가능한 저장매체(자기테이프, 자기 디스크)에 저장되어 관리한다는 것을 의미한다.
공용 데이터(Shared)	여러 사용자가 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용한다는 것을 의미한다.
운영 데이터(operated)	단순한 데이터의 집합이 아니라 그 조직의 기능을 수행하는 데 없어서는 안 될 필수의 데이터를 의미한다.

데이터베이스가 저장하는 내용은 곧 데이터베이스의 한 상태를 나타낸다. 때문에 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서 항상 현재의 정확한 데이터를 유지해야한다.

데이터베이스의 특징

항목	설명
실시간 접근성 (Real time accessibity)	사용자의 질의에 대하여 즉시 처리하여 응답하는 특징을 갖는다.
계속적 변화 (Continuous Evolution)	삽입, 삭제, 갱신을 통하여 항상 최근의 정확한 데이터를 동적으로 유지하는 특징이 있다.
동시 공유 (Concurrent sharing)	여러 사용자가 동시에 원하는 데이터를 공유할 수 있는 특징이 있다.
내용에 의한 참조 (Content reference)	데이터베이스에 있는 데이터를 참조할 때 튜플의 주소한 위치가 아닌 사용자가 요구하는 데이터 내용에 따라 참조하는 특징을 말한다.
데이터 논리적 독립성 (Independent)	응용 프로그램과 데이터베이스를 독립시킴으로써 데이터의 논리적 구조를 변경시키더라도 응용 프로그램은 변경되지 않는 특징을 갖는다.

다양한 측면에서의 특성
정보의 축적 및 전달: 대량의 정보를 일정한 형식에 따라 정보처리기기가 읽고 쓸 수 있도록 하는 기계가독성과 다양한 방법으로 필요한 정보를 검색하는 검색가능성, 정보통신망을 이용해서 원거리에서도 즉각 온라인을 이용할 수 있는 원격조작성을 갖는다.

항목	설명
정보 이용	이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아 낼 수 있다는 특성
정보 관리	정보를 일정한 질서와 구조에 따라 정리, 저장하고 검색, 관리할 수 있도록 하여 방대한 양의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이함
정보기술 발전	데이터베이스는 정보처리, 검색관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 이끌 수 있음
경제,산업적 측면	다양한 정보를 필요에 따라 신속하게 제공 및 이용할 수 있는 인프라로서 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로서 의미를 가짐

1.4.4 데이터베이스 활용

1.4.4.1 기업내부 데이터베이스

1990년대 중반을 기점으로 이전에는 정보의 수집과 조직 내에서 공유하기 위한 경영정보시스템 (MIS)과 기업활동의 영역별로 구축되던 시스템을 구축하면서 사용되었다.
1990년대 중반 이후에는 데이터마이닝 등의 기술이 등장하면서 단순한 정보의 수집에서 벗어나 분석이 중심이 되는 시스템을 구축하게 된다. 특히, 1995년 랄프 킴벌박사는 데이터베이스 시장이 OLTP 시장과 DW 시장으로 양분되고 있다고 언급하였다.
2000년대로 넘어오면서는 CRM(Consumer Relationship Management,고객관계관리)와 SCM(Supply Chain Management,공급망관리)로 바뀌게 된다. CRM이란, 고객별 구매이력 데이터베이스를 분석해 고객에 대한 이해를 돕고 이를 바탕으로 각종 마케팅 전략을 펼치는 것을 의미하고, SCM란, 일반적으로 자재구매 데이터, 생산 및 재고데이터, 유통 및 판매 데이터, 고객데이터로 구성하여 관리하는 방법을 의미한다.

가. 제조부문
데이터베이스 기술의 가장 중요한 적용분야이며, 2000년을 기점으로 기존의 부품 테이블이나 제고관리 등의 영역에서 설계, 제조, 유통 전공정을 포함하는 범위로 확대되었다. 이 후 솔루션의 현장도입이 적극적으로 이루어져 클라이언트/서버 기반의 내부 정보시스템을 웹 환경으로 전환하거나 ERP이후 SCM으로 기능을 확장하는 등의 기업내부 데이터베이스 구축이 이루어졌다.
2000년대 중반 이후부터는 인하우스 데이터베이스 구축 투자 증가가 이루어졌으며 실시간 기업 (RTE)이 형성되었다.

나. 금융부분
1998년 IMF 외환위기 이 후, 총체적인 부실을 타파하기 위한 노력이 지속되었고. 이로 인해 업무 프로세스 효율화나 e비즈니스 활성화 금융권 통합 시스템 구축 등이 크게 확산되었다.
2000년대 초반에는 데이터베이스간의 정보 공유 및 통합이나 고객 정보의 전략적 활용이 주로 이루어진다.이 후 2000년대 중반으로 접어들면서, DW를 적극적으로 도입하여 관련 DB마케팅을 증대시키기 위한 노력이 가시화되었고, 인터넷뱅킹 및 방카슈랑스의 도입으로 대용량 DW를 위한 최적의 BI기반 시스템구축이 급속도로 올라갔다.

다. 유통부분
전반적인 IT 변화 환경에 맞물려 CRM과 SCM 구축이 이루어졌으며, 특정 지역이나 고객 중심으로 운영되야만 생존할 수 있게 되었으며 CRM 구축은 필연적인 상황으로 되었다.
특히, SCM는 전자문서 교환이 본격화 되면서 구축되기 시작되었다. 뿐만 아니라 상거래를 위해 각종 인프라 및 KMS(Knowledge Management System)를 위한 별도의 백업 시스템도 구축되었다.

1.4.4.2 사회기반구조로서의 데이터베이스

1990년대 이후 정부부처 중심으로 사회간접자본(SOC)차원에서 EDI(Electronic Data Interchange, 전자문서교환)활용이 본격화 되면서 부가가치통신망(VAN)을 통한 정보망이 구축되기 시작했다. 이는 단순히 공공 DB로서 활용될 뿐만 아니라 인프라로서 관련 산업에서 유용하게 활용되기 시작했다.
1990년대 후반이후는 정보기술이 고도로 발전하면서 데이터베이스 활용이 문서교환 등에 국한되었던 EDI, CALS 등에서 벗어나 국가적으로 필요한 기반 시설(지리, 교통부문)의 데이터베이스 구축이 본격화된다.
2000년대부터는 의료, 교육, 행정 등 사회 각 부문으로 공공 DB의 구축 및 이용이 확대되었고 인터넷의 보편화로 인해 일반 국민들도 가정에서 손쉽게 생활에 필요한 정보를 습득할 수 있었다.

가. 물류 부분

1995년 국가기간전산망사업으로 확정 되어 출범한 종합물류정보망은 1998년에 서비스 개발을 완료해 상용서비스로 제공되었다. 종합물류정보망은 CVO(화물운송정보), EDI, 데이터베이스 서비스(물류정보), VAN으로 구성되었으며, 이 후 해양 수산부의 항만운영정보시스템, 철도청의 청도운영정보시스템, 복합회물터미널망, 항공정보망, 민간기업 물류 VAN을 연결하고 무역자동화망과 통관자동화망등의 유관전산망과도 연계해 물류흐름에 따라 모든 업무를 신속하게 처리하도록 했다.

나. 지리부분
1995년 국가지리정보체계(NGIS) 구축은 국가지형도와 공통주제도, 지하매설물도를 전산화하여 기본 공간정보 데이터베이스를 구축하고 관련 기술 개발과 함께 범국가적인 활용을 위한 국가 표준 설정과 활용체계를 개발하는 사업으로 시작했다.
2000년대 이후부터는 GIS, RS, GPS, IT 기술을 통합해 새로운 GIS응용에 활용하는 4S 통합기술, LBS 기술 SIM, 공간 DBMS 등 GIS 관련 정보기술의 비약적인 발전으로 웹 GIS도 실현시켰다.

다. 교통부분
교통정보는 동적(실시간) 교통정보와 정적(비실시간) 교통정보로 나뉘며, 실시간 교통정보는 지능형 교통시스템(ITS, Intelligence Transport System)이나 방송매체 등에서 교통, 소통을 목적으로 운전자에게 제공되는 교통정보를 의미한다. 반면, 비실시간 교통정보는 교통정책 및 계획 수립 등에 필요한 교통분야별 기초자료 및 통계를 제공하는 데이터베이스를 의미한다.

라. 의료 부분
1990년대에 의료정보망이 구축되었고, 1996년부터 53개 기관을 대상으로 의료EDI 상용서비스가 제공되기 시작했다. 2002년 의료법 개정을 통해 전자의무기록이 법적 효력을 갖게 되고, 원격 의료와 전자처방전이 허용되면서 의료정보시스템은 점차 본 궤도에 이르게 되었다.
2005년에는 국제 의료정보 전송 표준인 HL7의 국내 표준화 작업에 따라 전국적인 진료정보 공유체계 구축 계획이 수립되었고, 이 후 유비쿼터스가 개발되면서 U헬스 시장이 등장하게 된다.

마. 교육부분
2003년부터 적용되기 시작한 교육행정정보시스템은 과거 학교별로 데이터베이스를 구축해 운영하던 학생, 교원관련 교육정보를 각 시,도 교육청 데이터베이스에 담아 놓고, 전국의 초, 중등학교와16개 시,도 교육청 및 산하 기관, 교육인적자원부를 인터넷으로 연결해 교무, 학사뿐만 아니라 인사, 물품, 회계 등 기타 교육행정 전 업무를 처리하는 시스템으로 확장되었다.

2. 데이터의 가치와 미래

2.1 빅데이터의 이해

2.1.1 정의와 특징

빅데이터란, 단순히 용량만 방대한 것이 아니라 복잡성도 증가해서 기존의 데이터처리 어플리케이션이나 관리 툴로는 다루기 어려운 데이터 세트의 집합을 지칭한다. 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이기에, 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴 및 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐다. 빅데이터의 특징은 흔히 3V라고 하며, 내용은 다음과 같다.

[빅데이터의 특징]

규모(Volume / 데이터의 양)
형태(Variety / 데이터 유형과 소스 측면의 다양성)
속도(Velocity / 속도가 급격히 증가)

빅데이터를 보는 관점은 좁은 의미, 중간 의미, 넓은 의미에 따라 조금씩 다르며, 구체적인 내용은 다음과 같다.

[빅데이터를 보는 관점]

첫째, 3V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의
둘째, 데이터 자체뿐 아니라 처리, 분석 기술적 변화까지 포함하는 중간 범위의 정의
셋째, 인재, 조직적 변화까지 포함해 빅데이터를 넓은 관점으로 정의하는 방식

위의 내용과 연관하여, 현 시대에서 소통을 위해서는 기존의 작은 데이터 처리분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식으로 정의하는 것이 유용하다.

2.1.2 빅데이터의 출현 배경

빅데이터가 등장하면서 미친 영향을 살펴보면 다음과 같다.

산업계
정보가 지속적으로 축적되면서 기업은 거대한 가치 창출이 가능할 만큼 충분한 규모의 데이터를 보유하였고 질적변화를 일으킬 기술이 접목되면서 기대 가치를 창출할 수 있게 되었다.

학계
인간 게놈 프로젝트와 같은 대규모 데이터를 사용하는 학문 분야가 점차 증가함에 따라 통계 도구들도 지속적으로 발전하였다.

기술 발전
아날로그에서 디지털로의 변환은 유통 및 저장에 편의성을 제공하였으며, 모바일 시대가 도래하면서 스마트 단말 이용자가 감성데이터와 gps나 거리센서에 의한 상황데이터를 양산하게된다. 이 후 클라우드 컴퓨팅을 통해 정보를 많이 모으면서, 처리비용은 낮출 수 있게 되었다.

2.1.3 빅데이터의 기능

제조업, 서비스분야의 생산성을 획기적으로 끌어올리는 역할이 마치 산업혁명의 석탄, 철의 역할: 차세대 산업혁명에서처럼 필수적인 역할을 하였다. 뿐만 아니라 21세기의 원유와 같은 역할을 하게 되며, 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 정보를 제공한다. 이를 통해 산업 전방의 생산성을 한 단계 향상, 기존에 없 던 새로운 범주의 산업을 만들게 되었다.
세번째로는 렌즈와 같은 역할을 해주기 때문에 각종 질병으로부터 해방 및 게놈프로젝트를 통해 얻어진 유전 정보를 통해 인류의 건강에 기여할 수 있게 되었다. 마지막으로는 다양한 차원에서 활용되는 개념, 비즈니스 측면에서는 공동 활용의 목적으로 구축된 유무형의 구조물을 의미하기 때문에 플렛폼으로써 역할을 하게되며, 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공할 것으로 예상된다. 이를 위해 각종 사용자 데이터나 M2M 센서 등에서 수집된 데이터를 가공,처리,저장해 두고 데이터에 접근할 수 있도록 API를 공개 제공하였다.

2.1.4 빅데이터가 만들어내는 본질적 변화

사전처리 → 사후처리
필요한 정보만 수집하고 필요하지 않는 정보를 버림으로써 당시 시스템으로 달성할 수 있는 효율성을 만들어냈다. 하지만 빅데이터 시대에서는 이미 가치가 있을 것이라고 정해진 특정조건만 모아서 처리하는 것이 아닌, 데이터를 다양한 방식으로 조합해서 숨은 정보를 찾아낸다.

표본조사 → 전수조사
기존에는 데이터 수집 비용, 대용량 데이터 처리 도구, 비용 등이 모두 걸림돌이 됐기 때문에 새로운 가치나 지식의 발견을 위해 샘플링 기법을 사용하였다. 하지만 빅데이터시대에서 데이터 수집 비용은 더 이상 문제되지 않을 만큼 폭발적으로 쏟아져 나왔고 클라우드 컴퓨팅 기술의 발전에 따라 데이터 처리 비용이 급격히 감속하고 있다.
전수 조사의 장점은 샘플링이 주지 못하는 패턴이나 정보를 제공해 준다는 데에 있다. 샘플링은 분석하는 목적을 정하고 조사하기 때문에 질문이 바뀌면 질문에 맞춰 재조사를 해야되지만 전수 조사는 모아둔 데이터를 질문에 맞춰 다양한 방식으로 재가공이 가능하다.

질 → 양
데이터의 질보다 양을 강조하며, 데이터가 지속적으로 추가될 때 양질의 정보가 오류 정보보다 많기에 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 두고 있다. 뿐만 아니라 데이터의 수가 증가함에 따라 사소한 몇 개의 오류데이터가 대세에 영향을 주지 못하는 경향이 늘어나기 때문에 활용하는 데이터 규모가 커짐에 따라 사소한 숫자의 오류는 특정 사업에 착수 여부를 결정하는데 영향을 미치지 않게 된다.

인과관계 → 상관관계
기존의 과학적 발견법은 이론에 기포해 수집할 변인을 결정하고 엄격한 실험을 통해 정제된 데이터를 얻어 이론에 맞춰 분석하고 변인간의 관계를 찾는 방식이다. 빅데이터 시대에는 데이터 획득 비용이 기하급수적으로 감소하고 모든 곳에서 데이터가 넘쳐 난다. 또한 비즈니스적 측면에서는 이유를 몰라도 상관관계만으로 분석하는 경우가 많다. 이유는 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어날 것이기 때문이다.

2.2 빅데이터의 가치와 영향

2.2.1 빅데이터의 가치창출이 어려운 이유

빅데이터를 통한 가치창출이 어려운 가장 큰 이유는 데이터가 재사용, 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가, 활용할지 알 수 가 없게 되고, 이로 인해 가치 산정 또한 어려워진다. 데이터를 한 번 사용하고 버리지 않기 때문에 데이터 풀을 구성하는 자료로서 다른 사람에게 제공할 서비스를 위해서도 활용된다. 나아가 데이터는 본래의 목적 이회의 부분에서도 활용되면서도 가치를 창출한다. 하지만 이는 2차, 3차적 목적으로도 사용될 수 있다고도 볼 수 있다.

빅데이터 시대에는 데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려운 것도 가치 창출이 어려운 이유가 된다. 분석기술의 발달 또한 데이터 가치에 영향을 주기 때문이다. 클라우드 분산 컴퓨팅에서 저렴한 비용에 분석하면서 활용도가 증가하는 사례와 기존에는 정형화한 데이터와 함께 분석할 수 없었던 데이터가 텍스트 마이닝 등의 기법으로 분석 가능해진 것도 이와 이어진다. 뿐만 아니라 데이터는 기존 사업자에게 경쟁 우위를 제공할 수도 있기 때문에 어떻게 사용되는 냐에 따라 각양각색일 수 있다.

2.2.2 빅데이터의 영향

빅데이터가 가치를 만들어 내는 방식은 크게 5가지가 있다.

투명성 제고로 연구개발 및 관리 효율성 제고
시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
고객 세분화 및 맞춤 서비스 제공
알고리즘을 활용한 의사결정 보조 혹은 대체
비즈니스 모델과 제품, 서비스의 혁신

위의 내용에 따라 기업별, 국가별, 개인별로 어떠한 영향을 주는지 살펴보자.

먼저 기업의 경우에는 소비자의 행동을 분석하고 시장변동을 예측해 비즈니스 모델을 혁신하고나 신사업을 발굴할 수 있게된다. 원가절감, 제품 차별화, 기업활동의 투명성 제고 등에 활용하면 경쟁사보다 강한 경쟁력을 확보할 수도 있으며, 기업들의 운용 효율성이 증가하게 되고, 이는 산업 전체 생산성을 향상시키는 효과를 가져온다. 결과적으로는 국가의 GDP가 올라가는 것과 이어진다.

국가의 입장에서는 환경탐색, 상황분석, 미래대응으로 나눠서 볼 수 있다. 뿐만 아니라 사회 변화를 추정하고 각종 재해 관련 정보를 추출할 수 있고, 이렇게 수집된 데이터를 바탕으로 사회관계망 분석, 시스템 다이내믹스, 복잡계 이론과 같은분석 방식을 적용해 미래 의제 도출이 가능해진다. 이렇게 도출된 미래 의제에 대한 대응 방안 역시 빅데이터를 통해 얻을 수 있다.

끝으로 미래사회 도래에 대한 법 제도 및 거버넌스 시스템, 정비방향, 미래 성장 전략, 국가 안보 등에도 영향을 미칠 수 있다.

마지막으로 개인의 경우에, 대부분 빅데이터 활용 대상의 위치에 머물러 있지만, 빅데이터를 서비스로 제공하는 기업들이 출현하고 비용이 지속적으로 하락하면서 경제적 여력이 있는 정치인이나 대중 가수 등이 빅데이터를 활용하는 수준이다.

2.3 비즈니스 모델 (빅데이터 활용 기본 테크닉)

빅데이터를 활용한 비즈니스 모델은 이미 다양한 산업과 분야에서 다양한 모델들이 적용되어 매출을 올리고 있다. 그렇다면 어떤 방식의 비즈니스 모델이 있는지 살펴보자.

2.3.1 연관규칙 학습

어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법을 의미한다.
ex. 커피 구매자가 탄산음료를 많이 사는가?

2.3.2 유형분석

통계적 분류는 새로운 사건이 속하게 될 범주를 찾아내는 일이며 이를 위해 기존 자료를 바탕으로 만들어진 훈련용 분류틀이 미리 갖춰져 있어야 한다.
ex. 이 사용자는 어떤 특성의 집단에 속하는 가?

2.3.3 유전 알고리즘

최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜나가는 방법이다.
ex. 응급실에서 의사를 어떻게 배치가는 것이 가장 효율적인가? / 연료 효율적인 차를 개발하기 위해 어떻게 원자재와 엔지니어링을 결합 해야 하는가?

2.3.4 기계 학습

데이터를 통해 학습할 수 있는 소프트웨어를 포함하고 있으며, 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 일에 초점을 맞춘다.
ex. 이메일에서 스팸메일 걸러내기

2.3.5 회귀 분석

분석가는 독립변수를 조작하며, 종속변수가 어떻게 변하는지를 보면 두 변인간의 관계를 파악한다.
ex. 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?

2.3.6 감정 분석

특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석한다.
ex. 새로운 환불 정책에 대한 고객의 평가는 어떤가?

2.3.7 소셜네트워크 분석

영향력 있는 사람을 찾아낼 수 있으며 고객간의 소셜 관계를 파악에 용이하다.
ex. 특정인과 다른 사람이 몇 촌 정도의 관계인가?

2.4 위기 요인과 통제 방안

2.4.1 위기 요인

사생활 침해
M2M 시대의 본격화로 인해 정보 수집 센서의 수가 증가하는 것, 개인 정보의 가치가 증가함에 따라 보다 많은 사업자가 개인정보 습득에 많은 자원을 투자하고 있는 것이 원인이다.
ex. 여행 간 사실을 트위터에 올린 것을 본 강도가 수차례 빈집털이를 한 사건

책임 원칙의 훼손
빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 확률도 증가한다. 대표적인 예시가 아래에서도 언급된 영화 마이너리티 리포트이다. 영화 줄거리를 보면, 특정인이 분석결과에 따라 특정한 행위를 할 가능성이 높다는 이유로 처벌하게 되면 민주주의 사회 원칙을 크게 훼손한다. 따라서 이런 시스템에 의해 부당하게 피해보는 상황을 최소화할 장치를 마련하는 것이 반드시 필요하다.
ex. 영화[마이너리티 리포트]- 범죄 예측 프로그램에 의해 범행을 저지르기도 전에 체포될 수 있다.

데이터의 오용
빅데이터는 일어난 일에 대한 데이터에 의존하며 미래를 예측하는 것은 어느 정도의 정확도를 갖는다. 하지만 100% 일어나는 것은 아니므로 예측된 결과에 의존하면 안 된다.

2.4.2 통제 방안

위에서 살펴본 각각의 위기 요인에 대한 대응책은 다음과 같다.

동의에서 책임으로
사용자 정보가 한 번 사용 후 폐기되는 것이 아니라 2차, 3차적 목적으로 가공, 유통, 할당 된다.따라서 개인 정보 사용으로 발생하는 피해에 대해서는 사용자가 책임을 지도록 해서 개인 정보 사용 주체가 보다 적극적인 보호장치를 강구하게 하는 효과가 발생한다.

결과 기반 책임 원칙 고수
예측 자료에 의해 불이익을 당할 가능성을 최소화하는 자이를 마련하는 것이 빅데이터 시대에 꼭 필요한 일이다. 예시로 살펴본 영화 마이너리티 리포트의 범죄 예측 프로그램으로 인해 범행을 저지르지 않은 억울한 사람이 범인으로 몰리는 현상을 방지하는 것이라고 이해하면 된다.

알고리즘 접근 허용
접근권 제공으로 알고리즘의 희생양을 줄이자는 해결책이며 더 나아가 객관적 인증방안을 도입하자는 의견도 제시해 알고리즘이 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문할 수 있다.
전문 지식이 없는 사람들은 개선이 되도 불이익을 당할 수 있으며, 부당하게 당한 사람들의 입장을 대변해주고 구제해 주는 전문가 양성이 필요하다. 대표적인 직종이 알고리즈미스트이다.
ex. 알고리즈미스트

2.5 미래의 빅데이터

2.5.1 빅데이터 활용에 필요한 기본적인 3요소: 데이터, 기술, 인력

데이터
모든 것의 데이터화(Datafication)를 의미하며, 각종 센서 네트워크를 전방위적으로 구축해 모든 것들이 데이터화 되고 있다. 데이터의 가치 부분에서처럼 특정한 목적없이 생산된 데이터라도 창의적으로 재활용되면서 가치를 창출한다.

기술
진화하는 알고리즘, 인공지능을 말하며, 알고리즘의 진화가 빠르게 진행될 것을 의미한다. 알고리즘은 데이터 양의 증가에 따라 정확도가 증가하는 경향이 일반적이다. 때문에 M2M, IoT의 확산으로 데이터 생산량이 기하급수적으로 증가함에 따라 빅데이터를 다루는 알고리즘의 효율성 역시 기하급수적으로 증가할 것임을 의미한다.
특히 인공지능 기술은 기존의 데이터 분석법으로 처리가 불가능할 만큼 거대한 규모의 빅데이터 처리에 필수 불가결한 기술로 부상하였으며, 실제 인간보다 빠르고 정확한 판단을 내리는 수준에 도달했다.

인력
데이터 사이언티스트, 알고리즈미스트가 대표적인 직종이며, 두 직종에 대한 구체적인 설명은 다음과 같다. 먼저, 데이터 사이언티스트는 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능역을 두루 갖춘 전문인력을 의미한다. 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향제시에 활용할 줄 아는 기획자이자 전문가이다.
반면, 알고리즈미스트는 데이터 사이언티스트가 한 일로 부당하게 피해가 발생하는 것을 막기 위해필요, 수학, 컴퓨터, 통계학 뿐만아니라 비즈니스 전반에 대한 이해와 알고리즘 코딩해석능력도 필요한, 종합적인 직군이라고 할 수 있다.

3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

3.1 빅데이터 분석과 전략 인사이트

3.1.1 빅데이터 열풍과 회의론

빅데이터에 회의를 느끼게 된 이유 중 하나는 고객관계관리(CRM)를 통해 경험한 부정적 학습효과가 있다. 이유는 많은 빅데이터 성공사례가 기존의 분석 프로젝트를 포장해 놓은 것이 태반이였으며, 근본적으로 빅데이터 분석은 기존의 분석과 마찬가지로 데이터에서 가치, 통찰을 끌어내 성과를 창출하는 것이 관건이기 때문이다.

3.1.2 싸이월드 vs. facebook

싸이월드가 facebook에 밀린 이유 중 하나가 데이터 분석 기반 경영 문화의 부재였다. 데이터 분석에 기초해 전략적 통찰을 얻고 효과적인 의사 결정을 내리고 구체적인 성과를 만들어내는 체제가 없었기 때문에, 둘 다 방대한 트랜잭션 테이터가 생성되는 인터넷 기업이였음에도, 전략적인 분석에 의해 승패가 갈린 대표적인 사례이다. 이를 통해 전략적 분석과 통찰력 창출을 해야하는 이유에 대한 답을 알 수 있다.

3.1.3 빅데이터, big이 핵심은 아니다.

데이터만 갖고 있다 해서 만사가 해결된다는 의미는 아니다. 왜냐하면, 데이터의 유형이 아니라 유형의 다양성과 관련이 있기 때문이다. 이렇게 다양한 데이터 소스와 신종 소스를 분석할 수 있는 능력을 가리켜, 빅데이터의 이니셔티브 라고 부른다. 즉, 비즈니스의 핵심에 대해서 보다 객관적이고 종합적인 통찰을 줄 수 있는 데이터를 찾는 것이 중요하다는 의미이다.

3.1.4 전략적 통찰이 없는 분석의 함정

빅데이터 회의론의 가장 큰 문제는 빅데이터를 그저 그런 것으로 받아들이도록 하여, 획기적 속성을 제대로 알지 못하게 만든다는 데 있다. 파편화되고 일차적인 분석을 넘어 전략적으로 통찰력 있는 분석을 수행하고 이를 조직의 실행 프로세스로 옮기는 것, 데이터 분석에 기초한 전략적 통찰을 갖춘다는 것은 어렵기 때문이다. 하지만 일차원적, 부분적인 분석으로 손쉬운 해결책만 찾는 것은 오히려 전략적 통찰이 없는 분석이 될 수 있다.
대표적인 사례로 아메리칸 항공 vs. 사우스웨스트 항공이 있다.결과부터 이야기하면 아메리칸 항공이 패하게 되었다. 이유는 다른 항공사들처럼 분석적 접근법을 채택하였지만, 분석이 아무짝에도 쓸모 없는 비즈니스 모델을 뒷받침하였기 때문이다.

3.1.5 일차적 분석 vs. 전략 도출 위한 가치 기반 분석

빅데이터는 가치창출이 가능해야하고 시점은 빠를수록 좋다. 그리고 그에 대한 가치는 각 산업의 특성이나 경쟁의 정도, 분석 목적, 분석 활용 수준에 따라 다양해질 수 있다. 이에 대응하려면, 일차적인 분석을 통해 분석 경험을 늘려가고 성공을 거두면 분석의 활용 범위를 점점 넓혀 가야한다. 전략적 인사이트를 위한 가치 기반 분석은 인구통계학적 변화, 경제사회 트렌드, 고객니즈의 변화등을 고려하고 대 변화가 어디서 나타날지도 예측해야 하기 때문이다.

3.2 전략 인사이트 도출을 위한 필요 역량

3.2.1 데이터 사이언스의 의미와 역할

데이터 사이언스라는 학문은 데이터로부터 의미 있는 정보를 추출해내는 학문이다. 여기서 사용되는 데이터는 정형, 비정형을 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자 와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 한다. 또한 단순히 분석만 하는 것이 아니라, 분석 뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정까지를 포함한 포괄적 개념이다. 때문에 총체적 접근법을 사용한다.

3.2.2 데이터 사이언스의 구성요소

데이터 사이언스라는 학문은 아래 그림처럼 크게 3가지 기술이 통합된, 복합적인 학문이다.

또한 데이터 사이언티스트의 덕목 중에는 호기심이 있는데, 여기서의 호기심이란, 데이터 사이언티스트들의 주요 특징이자, 문제의 이면을 파고들어 질문을 찾고, 검증 가능한 가설을 세우는 능력을 말한다.

만약 데이터 사이언티스트가 되고자한다면, 아래와 같은 역량을 보유하는 것을 권장한다. 크게 Hard Skill 과 Soft Skill 로 나눠서 볼 수 있고, 구체적인 내용은 다음과 같다.

3.2.3 데이터 사이언스: 과학과 인문의 교차로

통찰력 있는 분석은 직관, 전략, 경영 프레임워크, 경험이 혼합되어야 한다. 이를 위해 데이터 사이언티스트에게는 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력, 대화 능력 등이 필요한데, 여기서 나열한 필수 덕목들의 공통점은 바로 인문학의 요소라는 것이다.

3.2.4 인문학의 부활: 인문학 열풍

위의 내용에서처럼 데이터 사이언스를 구성하는 덕목들은 인문학과 연관이 있을 정도로 빅데이터가 떠오름에 따라 인문학에 대한 열풍도 같이 불고 있다. 이를 아래 3가지 측면에서 살펴보자.

단순 세계화 → 복잡 세계화
다양성과 각 사회의 정체성, 맥락, 관계, 연결성, 창조성등 이 키워드로 대두됨

비즈니스의 중심이 생산 → 서비스로 이동
제품이 고장나더라도 얼마나 뛰어난 서비스를 제공하는 가와 연관되며, 고객과의 관계 및 커뮤니케이션이 증가함

경제와 산업의 논리가 생산 → 시장창조
현지 사회나 문화와 같은 함축적이고 암묵적인 지식 등의 무형 자산이 중요
ex. 스마트폰 → 폰과 pc의 결합으로 새로운 시장을 창조함

3.2.5 데이터 사이언티스트에게 요구되는 인문학적 사고의 특성과 역할

데이터 사이언티스트에게는 호기심 뿐만 아니라 비판에 대해서도 중요하게 생각한다. 데이터 사이언스에서의 비판은 인문학의 정수이자, 그런 생각을 할 수밖에 없도록 만들었던 것을 들춰내는 일을 의미한다. 이와 관련하여 비판의 단계는 왜 그렇게 생각하는가, 어떻게 그런 식으로 생각했는가를 집요하게 묻는 단계라고 할 수 있다.

그리고 이처럼 집요하게 묻는 것은 그만큼 통찰력이 있는 분석을 가능하게 한다. 이렇게 여러 분석 도구들을 활용해 깊이 파고드는 단계를 통찰력 제시 단계라고 하며, 통계적 모델링 등을 활용해 비판의 단계에 대한 설명을 제공할 수 있다.

이와 관련하여, 아래의 표는 정보와 통찰력에 대해 시간대 별로 어떻게 변하는 지, 어떻게 다른지를 표현한 것이다.

	과거	현재	미래
정보	무슨일이 일어났는가? (리포팅/보고서 작성)	무슨 일이 일어났나? (경고)	무슨 일이 일어날 것인가? (추출)
통찰력	어떻게, 왜 일어났는가? (모델링, 실험단계	차선 행동은? (권고)	최악, 최선의 행동은? (예측, 최적화, 시뮬레이션)

3.2.6 데이터 분석 모델링에서 인문학적 통찰력의 적용 사례 (feat. 인간을 보는 관점)

이번에는 인문학적인 관점으로 데이터 분석 모델을 살펴볼 것이다. 크게 아래 3가지의 관점으로 볼 수 있으며, 각 관점에 대한 예시와 함께 살펴보자.

성향적 관점
ex. 사람의 인상이나 관상으로 판단하는 것

행동적 관점
ex. 어느 순간을 기점으로 태도가 바뀌는 것

상황적 관점
ex. 상황에 따라서 다른 행동을 보이는 경우

3.3 빅데이터, 데이터 사이언스의 미래

끝으로 빅데이터 그리고 데이터 사이언스의 미래에 대해 알아보자.

3.3.1 빅 데이터의 시대

빅데이터의 시대에서, 데이터는 다양한 측면에서 객관적인 사실을 보여주며, 이러한 객관적 사실들 사이의 관계, 인사이트를 찾아내면 새로운 가치를 창출할 수 있다.

3.3.2 빅데이터 회의론을 넘어: 가치 패러다임의 변화

빅데이터와 데이터 사이언스가 확산됨에 따라 세상이 빠르게 변함에 따라 예측하지 못했던 전환이나 위기를 대응할 수 있는 능력이 필요하다. 즉, 특정 현상이나 어떤 일의 표면을 보고 숨은 뜻, 흐름, 추세를 추측하고 역사적인 사례와 비교해서 어떤 방향으로 가는 가를 읽어내는 능력이 필요하다. 그리고 이는 가치 패러다임에 대한 변화도 불러오는데, 크게 3 단계로 나눠볼 수 있다.

디지털화(Digitalization)
아날로그 세상을 어떻게 디지털화 시킬 것인가를 의미한다.

연결(Connection)
디지털화 된 정보들과 대상들을 얼마나 효과적이고 효율적으로 제공해 주느냐를 말하며, 항상 환경에 영향을 받는다.

에이전시(Agency)
IoT의 등장으로 연결고리가 무한으로 증대되고 복잡해지기 때문에 얼마나 효과적이고 믿을 만하게 관리해주는가를 의미한다.

3.3.3 데이터 사이언스의 한계와 인문학

데이터 사이언스가 유명세를 탔지만, 아무리 정량적인 분석이라도 모든 분석은 가정에 근거한다. 데이터 분석은 완벽하지 않으며, 데이터에 근거한 판단은 편협한 자기정당화, 근거 없는 대안, 정보가 뒷받침되지 않는 직관보다는 나을 수 있지만, 모델의 능력에 대해 의구심을 가지고 가정들과 현실의 불일치에 대해 끊임없이 고찰하고 분석모델이 예측할 수 없는 위험을 살피기 위해 현실 세계를 봐야한다.

728x90

저작자표시 비영리 변경금지 (새창열림)