관리 메뉴

교육부 공식 블로그

빅 데이터, 지배당할 것인가 지배할 것인가? 본문

교육부 국민서포터즈

빅 데이터, 지배당할 것인가 지배할 것인가?

비회원 2011. 8. 23. 10:00

 

여러분, 뜬금없이 난처한 질문 하나 해도 되겠습니까?
평범하게 살다가... 문득 멍해지면서 너무나도 익숙한 내 삶의 공간이 갑작스럽게 이질적으로 느껴진 경험. 그런 당혹스러움... 혹시 있으신가요? 무엇인가가 비비꼬인 뒤틀린 상황인 것 같은데...
도대체 그 이유를 알 수 없어 밤새 뒤척인 경험. 있습니까?
더군다나 내 자신이 다른 누군가에 의해 조종당하고 있다는 찜찜함에, 알 수 없는 무력감으로 허우적댄 경험. 있으신가요? 그건 아마도 매트릭스가 오류를 일으킨 또는 System Failure를 알리는 절호의 기회. 아닐까요?

당신도 원하신다면, 이제 빨간약! 드시고 이 지긋지긋한 매트릭스에서 탈출하여 온전한 자유를 쟁취하기 위해서 
치열하게 싸워야 할 때. 아닐까요? 얼마 전까지도 당신과 다를 바 없었던 네오가 오늘 당신에게 묻습니다. 
당신을 둘러싼 이 빅 데이터 사회, 여러분이 지배하시겠습니까? 아니면 순순히 지배당하시렵니까^^

 
▶ 정보의 속살을 끄집어내다 : 빅데이터(Big-Data)란 무엇인가?
 
Big Data란 기존의 관리, 분석 체계로 감당하기 어려운 막대한 데이터를 의미한다. 원래 엄청난 거대 데이터 집합만을 의미했지만, 최근 관련 도구나 플랫폼, 분석기법까지 포괄하는 용어로 자리잡게 되었다. 모바일 환경과 IT 발달로 인해 새롭게 창출, 유통되는 정보가 폭발적으로 증가하였다. 작년 디지털 공간에서 축적된 정보가 12억 테라바이트(TB)에 육박하면서, 이런 빅 데이터를 어떻게 분석, 활용할 것인지 많은 관심이 집중되고 있다.
 
▶ Big Data의 분석과 활용? 그것이 궁금하다!
 
이처럼 방대한 구조를 가진 빅 데이터를 분석하여 보다 나은 비즈니스 환경을 구축하려는 기업체들이 증가하고 있다. 특히 미국 월마트는 지역에 따른 고객 선호도, 수요에 따른 재고 예측 조사 같은 빅 데이터 분석을 통해 높은 투자 수익을 창출했다. 이제 기업들을 빅 데이터를 경쟁 우위를 확보할 큰 자산이자 전략으로 취급하고 있다. 그렇다면 이런 빅 데이터가 실제 우리들의 삶 속에서 어떻게 가공, 활용되는지 구체적으로 살펴보자.
 
▶ 정보의 홍수 속에서 'Data-Mining'을 징검다리 삼아 금맥(金脈)을 찾아내다


컴퓨터와 정보 검색, 통신기술은 진화하면서 정보는 넘쳐나고 그 수많은 정보들 중 자신에게 딱 맞는 정보를 찾기란 정말 어렵다. 많은 웹사이트들이 그 대응책으로 정보검색 시스템을 업그레이드했지만, 과거 1을 찾기 위한 정보가 10,000이었다면 이제 1,000 정도로 감소했을 뿐이다. 데이터마이닝의 개념‘데이터(Data)+마이닝(Mining)=데이터를 캐내다’를 통해 알 수 있듯이 많은 정보들 속에서 공통점과 상관관계 찾아내고 적용 가능한 대략적인 정보를 추출하여 분석 결과를 현실문제에 적용한다.
 

* 방학 중임에도 강당을 가득 채운 이 뜨거운 열기. 그들은 바로 대한민국 고등학생이랍니다 *


▶ 실생활에서 Data-mining의 유용성 : 특정한 Data로부터 부가가치를 창출하다 
 
▷ 사례 1 : 숙취 해소 음료(ex. 컨디션 파워)는 12월 저녁 시간대에 판매량이 제일 많이 급증한다. 왜 그럴까?
망년회 등 1년을 마무리짓는 회식 자리가 가장 빈번하게 열리기 때문이다.
 
▷ 사례 2 : 소셜커머스의 경우, 화요일에 생필품 등의 구입량이 제일 많이 증가하였다. 왜 하필 월요일일까?
대체로 젊은 직장인들이 소셜커머스를 구입한다. 이들은 월요일에 바쁜 회사 일처리 때문에 구입량이 저조하다. 한편 금~일요일 등 주말의 경우, 이들은 여가활동에 많은 시간을 투자하는 관계로 소셜커머스의 구입량은 생각보다 저조하였다.
 
▷ 사례 3 : ○○마트 이용 고객들의 이동 패턴을 조사하였다.
이 조사를 통해 상당수 고객들이 과일코너에서→야채코너로, 그리고 가공품코너에서→야채코너로 많이 이동하는 패턴을 포착했다. ○○마트는 고객들의 이동 패턴에 따라 해당 코너의 상품별 배치와 수량을 조절하여 10% 이상 이윤이 증가하였다.
 
▷ 사례 4 : 한 대형마트에서 사람들이 물건을 구입하는 패턴을 분석해보니 기저귀와 맥주를 같은 위치 놓자, 기저귀를 사면서 맥주까지도 사게 된다는 결과를 내놓았다고 한다.
또한 사람들이 빨간색 핸드폰 케이스를 사면
 흰색도 많이 구매를 한다는 데이터가 나왔을 때, 두개를 묶어서 판매한다면 더 높은 수익을 창출할 수 있을 것이다. 지금까지 우리가 일상적으로 당연하다고 느꼈던 여러 행위들도 모두 데이터가 될 수 있으며, 이를 가공함으로써 
유익한 정보를 만들 수 있다.
 
▶ 이런 데이터 분석을 통해 효과적인 전술 전략 정보도 확보할 수 있다
  
 
미국의 드루 콘웨이는 위키리크스에 저장된 테라바이트급의 핵심 데이터들을 분석하여 미국과 아프가니스탄 연합군의 병력 활동 동향을 파악했다. 이를 위해 그는 R통계언어(R statistics language)를 활용, 아프가니스탄 주요 5곳을 적/중립/동맹지역으로 나눠 정보를 분류하고 각 지역에서 어떤 활동이 일어나는지 패턴을 분석했다. 이를 통해 탈레반 활동이 어디에서 많이 일어나는지, 미국 동맹 지역은 어딘지, 아프가니스탄 전쟁의 변화 양상도 확인할 수 있었다.
 
▷ 과연 TV, Internet에서 제공되는 정보만 데이터일까? 사람들이 무심코 행동하는 패턴들이,그리고 자신이 일상적으로 하는 습관적 행동 하나하나까지도 데이터로 자리매김될 수 있다!
▷ 그러면 우리 학생들과 데이터마이닝 사이에 놓인 연결고리는 무엇일까?
 

▶ Q : 데이터마이닝 캠프가 고등학생들을 대상으로 열리게 된 배경은 무엇인가요?
▶ A : 서울대와 한국BI데이터마이닝학회(홈페이지 : http://www.kdms.or.kr/index.asp)는 매년 방학마다 고등학생들을 위해 데이터마이닝 캠프를 개최합니다. 데이터마이닝은 대량의 데이터로부터 의미있는 패턴이나 룰을 추출하는 분석 방법입니다. 오늘 날 재무․소매․마케팅․제조 분야의 데이터가 대량으로 생성되며, 이를 분석하여 의미있는 정보를 추출하고 이것을 의사결정과정에 사용하는 것입니다.

앞으로 더욱 많은 데이터가 생성되므로 미래 전망 또한 매우 밝습니다. TIME지는 2002년 21세기 가장 유망한 직종 리스트에 데이터마이너를 5위에 올렸으며, MIT의 테크놀로지리뷰지는 2008년 호에서 향후 떠오르는 기술 분야로 데이터마이닝을 1위와 9위에 올렸습니다. 이에 서울대와 한국BI데이터마이닝학회는 대학진학을 앞 둔 고교 학생들에게 미래형 연구응용 분야이자, 학제 간 연구 분야인 데이터마이닝 캠프를 개최하게 되었습니다.
 (조성준 교수님 / 서울대 산업공학과)

 
 
* 그냥 교수님들의 강연만 듣고 땡~ 끝나진 않습니다. 학생들이 팀별로 직접 모둠활동을 합니다. 그리고 학생들은 교수님들과의 질의응답 시간을 통해 진로탐색에 대한 고민을 보다 구체화한답니다. * 
 

▶ Q : 데이터마이닝 캠프에서 인상적인 강의 내용은 어떤 것이 있었나요?
▶ A : 데이터마이닝 캠프를 통해 저는 흔히 데이터라고 생각하는 정보들, 예컨대 TV나 인터넷에서 제공되는 데이터들은 하나의 텍스트이며, 여러 가지 데이터 종류들이 존재할 수 있다는 사실을 알았어요. 데이터마이닝에 대해선 막연히 이런 개념일 것이라고만 생각했어요. 그런데 방대한 데이터를 마케팅 분야에 적용하여 여러 부류의 데이터를 걸러내고 유사한 데이터끼리 모으고, 이렇게 축적한 데이터를 통해 자신이 원하는 데이터의 결과물을 도출할 수 있다는 사실이 흥미로웠어요. 특히 데이터는 목적이 있을 때 비로소 쓸모가 있다는 강의 내용에 공감했습니다.   (문예지 학생 / 노원고등학교)

 
 
 
* 그냥 앉았다가 집에 가는 캠프 아닙니다. 셤 문제까지 풀어야 한답니다. 물론 상장과 문상까지 두둑하게 받지요^^ *
 

▶ Q : 학생들이 직접 참여한 데이터마이닝 분석활동은 어떤 것들이 있었나요?
▶ A : 데이터마이닝 방법 중 하나인 군집분류작업을 직접 조를 만들어 체험보는 활동을 했어요. 6명을 조사하여 그 사람들을 군집으로 묶어보는 작업이었는데, 5가지 기준을 밖에 없었는데도 쉽지 않다고 느껴졌어요. 제시된 정보들을 숫자화 시켜 각 데이터들의 관계를 측정해 가깝고 먼가를 측정하여 군집 분류하는 작업이 정말 신기했어요. 지금 제가 쓰는 이 글 또한 숫자화되어 데이터가 될 수 있답니다. 그리고 분류․예측 기법이 있는데 예측은 과거 패턴이나 인과관계에 있는 정보로 미래 값을 예측 해보는 것입니다.

저희들도 예측 종류 중에 회귀분석에 대해 배웠어요. 이것도 독립․종속변수 사이 관계를 수식으로 만들어 미래의 종속변수 값을 예측하는 방법인데, 이처럼 정보들 사이에 자리잡은 복합적 상관관계를 찾아내는 기술이 정말 흥미로웠습니다.
 
또한 저희들은 3인 1조로 팀을 이루어 직접 알고리즘을 제작했어요. 문제는 생각보다 많이 어려웠어요. 예컨대 CCTV가 자동적으로 용의자 얼굴을 인식하도록 해야 하는데 여기에서 고려해야 할 변수들이 정말 많았어요. 일단 사람이라는 점, 그리고 사람의 얼굴을 인식해야하고, 얼굴 각도에 따라 달라는 얼굴 모양까지도 고려해야 하더라구요. 단순하게 인식할 수 있는 프로그램이 있나보다 했는데, CCTV 프로그램에 이렇게 많은 변수들이 존재한다고는 미처 생각하지 못했어요. 데이터마이닝 캠프를 통해 제가 평소에 당연하게 생각하며 넘어간 우리 일상의 현상들을 다른 각도에서 참신하게 바라보게 해주는 계기가 되었습니다.      (문예지 학생 / 노원고등학교)

 

* 데이터마이닝캠프를 마치며 모두 모여 기념촬영 한 컷! 아쉬움을 뒤로 하며~ 그러나 우리 학생들의 가슴엔 웬지모를 뿌듯함이! *


▶ Q : 데이터마이닝 캠프가 우리 학생들에게 어떤 의미로 자리매김될 수 있을까요?  
▶ A : 데이터마이닝의 중요한 목적 중에 하나는 의미있는 정보를 분석, 추출하고 이것을 의사결정에 적용하는 것이라고 생각됩니다. 주목해야 할 측면은, 이 데이터마이닝에 기반한 정보 추출-선별 전략을 수립하는 과정과 훈련이 우리 고등학생들의 진로 탐색 문제와 밀접한 연관성이 있다는 점입니다.

많은 학생들이 진로 문제에 대해 상당히 피상적인 고민에 머물러 있습니다. 이런 상황에서 데이터마이닝 캠프는 우리 학생들에게 미래형 연구 응용 분야와 학제 간 연구 분야를 소개하여, 진로에 관한 학생들의 문제 의식을 좀더 구체화시킬 수 있다고 생각됩니다. 한마디로 정보의 홍수 속에서 우리 학생들이 모색해야 할 생존 전략이라는 것입니다.                        (데이터마이닝 캠프 실무를 담당하신 권미선 선생님)

 
 


우리 학생들은 교실에서 상큼한 변혁을 '두드림(Do Dream)'
 

그렇지만 풍요 속의 빈곤이라고 해야 할까요?

이처럼 무수히 많은 정보의 홍수 속에서도 소외받고 있는 우리 학생들. 여전히 많은 것 같습니다. 적어도 우리 교실 공간에서만큼은 학생들이 소외받지 않으며 모두가 더불어 갈 수 있는 '길'에 대해 고민해야 하지 않을까요?
 
우리 학생들이 다양한 정보들과 그 연관 매체에 보다 손쉽게 접근할 수 있는 '동등함의 길'에 대해 고민해야 하지 않을까요? 그렇다면 우리 현실에서 이러한 정보불평등이 교육불평등으로 연계되지 않기 위해서, 우리가 지금. 바로. 여기에서 시작할 수 있는 변화의 출발점과 발상의 전환은? 우리 학생들이 발딛고 있는 교실의 정보 환경을 새롭게 재조직할 수 있는 방법은 과연 무엇일까요?




 SMART한 교실 혁명을 통해 그 대안을 모색해본다면 어떨까요!
 

 우리사회가 지식정보사회로 빠르게 발전함에 있어 두드러지게 대두되는 문제는 정보의 편중 현상입니다. 정보에서 소외되는 계층은 사회적 약자가 될 수밖에 없으며, 정보의 불평등으로 인해 그들은 도태되고 사회적 불안 요인으로 나타날 수도 있습니다. 그렇다면 이러한 정보화의 흐름 속에서 우리 학생들이 소외당하지 않고 온전히 그 대열에 합류하기 위한 방안들은 무엇이 있을까요? 먼저 우리의 학교 공간 안에서 그 대안들과 변화를 모색해보는 것은 어떨까요?
 
▶ PISA 2009 디지털매체읽기검사(DRA : Digital Reading Assessment) 성과

여러분, 아십니까? 대한민국이 DRA에서 전체 19개 참여국들 중에서 최상위 성취수준을 달성했다는 사실을 말이죠. 우리나라의 점수가 568점으로 OECD 평균 점수 499점보다 무려 69점이나 높답니다. 정말 자랑스럽지 않나요? 그리고 대한민국은 DRA와 PRA(Printed Reading Assessment) 결과 모두에서 최상위(평균 1위) 수준을 달성했답니다. 


<DRA와 PRA 순위 및 평균 차이>


▶ 스마트교육을 통해 우리 학생들을 재기발랄한 데이터마이너로!

* 스마트교육이란? : 21세기 학습자 역량 강화를 위한 지능형 맞춤 학습 체제로 교육환경, 교육내용, 교육방법 및 평가 등 교육체제를 혁신하는 동력이랍니다. 또한 스마트러닝은 새로운 지식과 기술을 활용한 독립적이고 지능적인 교육을 통해 학습자 행동의 변화를 이끌어 내는 활동이지요.

스마트러닝은 스마트폰, 미디어 태블릿, e북 단말기 등의 모바일 기기를 이용한 학습 콘텐츠와 솔루션을 통칭합니다. 인터넷 접속은 물론 위치기반 서비스/증강 현실 등 다양한 기술 적용이 가능한 스마트 기기의 장점을 활용해 기존 이러닝과 차별화된 서비스를 제공한답니다.


< 스마트교육의 개념도 >



▶ 우리 교실에서도 이런 교육서비스가 가능하답니다!  클라우드 교육서비스!

* 클라우드 교육 서비스의 개념 : 클라우드 컴퓨팅이란? 자료나 소프트웨어를 개별 기기가 아닌 데이터센터에 저장해뒀다가 필요할 때마다 인터넷을 통해 꺼내 쓰는 서비스입니다. 전 과정이 마치 구름(cloud)처럼 눈에 보이지 않는 인터넷상에서 이루어진다는 뜻으로 명명된답니다.






 
0 Comments
댓글쓰기 폼