티스토리 뷰

728x90
반응형

현장에서 얻은 것 다섯 번째

 

“데이터는 정보가 아니고, 정보는 지식이 아니며, 지식은 이해가 아니고, 이해는 지혜가 아니다.”
- 클리퍼드 스톨(Clifford Stoll)

 

지금 하고 있는 컨설팅 프로젝트에서 제일 많이 다루는 것이 데이터 분석이다.

과거 2년치의 데이터 속에서 미래로 가고자 하는 방향성을 찾아내는 것인데, 제일 많이 씨름하고 있는 것이 엑셀을 통한 데이터 분석이다. 그러다 보니 자연스럽게 ‘데이터 분석’의 직업에 대해서 많은 궁금증이 생긴다.

주변에 데이터 마이닝을 전공한 사람들이 과거에 일을 같이 하면서 빠른 판단을 하던 것을 상기해 보면, 뭔가 인사이트가 남달랐다거나 참 똑똑하다는 느낌을 받기도 했다.

그들은 조용히 자신의 파워를 세상에 알렸다. 요란하지도 않고 자신이 다룰 수 있는 5가지 정도 툴을 가지고 조용히 분석한 결과물로 상황을 인지하고 조용히 대처한다. 왜냐면 남들이 정상적으로 할 수 있는 일을 20~30%의 노력으로 끝낼 수 있기 때문이다. 

 

“통계로 거짓말하기는 쉬워도, 통계없이 진실을 말하기는 어렵다.”
- 안드레예스 등켈스

 

이런 얘기도 들었다. 

유럽의 유명한 스포츠카 업체에서 데이터 분석의뢰를 하고자 데이터 분석가를 불렀다. 방금 레이싱을 마친 차에는 센서가 2000개 달려 있다. IoT(사물인터넷) 기술로 무선을 통해서 달리는 동안 데이터를 수집해 놓았다. 레이싱 카 엔지니어는 의뢰를 하면서 한 마디 건넨다.

“1주일 드리겠습니다. 데이터를 보시고 성능과 관련한 문제점을 발견하시면 알려주세요.”
 
데이터 분석가는 3일 동안 제공 받은 데이터를 5가지 툴로 다양하게 분석해 보았다. 이후 두 사람은 커피타임을 가졌다.

“혹시, 엔진의 어떤 부위 데이터가 특이한 것 같습니다.” 

그러자, 두 사람은 급속히 대화의 진전이 시작되었다. 

물론 좀 더 상황 설명이 필요하겠지만, 이 대화에서 느낀 점은 적어도 데이터 분석가의 역할이 무엇인지, 어떤 결과물을 내야 하는지 어렴풋이 알 수 있다.  

다시 돌아가서, 데이터의 본질에 대한 궁금증이 요즘 내가 하고 있는 일의 핵심이다. 

요즘 제조업체에 가 보면, 데이터가 기업의 미래를 책임질 핵심요소이지만 또 반대로 추상적이고 이상적인 단어가 될 수 있다는 것을 느낀다. 

“데이터를 잘 쌓아야 합니다.”

“어떻게?”

그러면 십중팔구 설명을 하려고 한다. 그러나 고객이 원하는 것은 설명이 아니라 이해를 시켜야 한다. 이해의 본질의 핵심은 그들 스스로 할 수 있는 방안을 제시하는 것이다. 데이터 분석의 행위를 하는 직업의 세계로 잠시 들어가 보고자 한다.  

DT(디지털 트랜스포메이션)의 근간이 되는 데이터에 대해서, 도서관에서 우연히 눈에 띈 흥미로운 책을 발견했다. 양중기 님이 쓴 ‘그것이 R고 싶다’. 제목에서 한 번 끌리고, 스토리에 한 번 더 끌렸다. 이 책의 맵 한장을 올 초에 만들었다. 

 

“통계는 과학의 문법이다.” 
- 칼 퍼슨

 

데이터 분석에는 세 종류의 직업군이 있다.

데이터 분석가, 데이터 엔지니어, 데이터 과학자인데, 그들은 어떤 일을 하며 어떤 목표와 결과물을 만들어 내는지 알아본다. 

데이터 분석가(data analyst)

의사결정권자와 타 부서에서 오는 변덕스러운 데이터 분석 요청에 대해, 데이터의 흐름을 이해하고 분석하고 시각화한다. R, 파이썬과 같은 언어로 코딩하고, 다양한 시각화 도구를 이용해서 데이터 흐름을 보여준다. 데이터 분석가는 직접 코드를 작성할 줄 알아야만 한다. 빠른 이터레이션(iteration)으로 빠르게, 또는 넓게 결과를 탐색해 나갈 필요성이 최근 이 직업이 다시 주목받는 이유이다.

좀더 자세한 정보는 브런치에 기고된 Joe의 ‘데이터 분석가에게 필요한 것’을 참고해 보면 좋을 것 같다.

 

데이터 엔지니어(data engineer)

데이터 분석가보다 정교하게 기술적으로 접근하며, 실시간 스트리밍 혹은 마이크로 배치를 통하여 데이터 이동 혹은 데이터를 어디에서나 접근할 수 있게 만든다. "모든 엔지니어링 요소를 책임진다." 즉, 적절한 처리방식을 구현하는 것이 엔지니어의 몫이다.

 

데이터 과학자(data scientist)

회사나 조직 전반에 걸쳐서 실행가능한 전략적인 인사이트를 제공하고 예측 및 최적화 등 넓은 영역 담당을 담당하며, 의사결정에 관여한다. ‘피처 엔지니어링(feature engineering)’이라고도 하며, 데이터에 구조를 부여하고, 비정상적인 데이터를 배제하고, 빠진 데이터를 채워 넣고 오류를 바로잡고 비즈니스의 목적에 따라 데이터를 선택하고 통계적 모델을 고민하고 머신러닝 학습을 수행해서 모델을 선정하고, 결과를 검증하고, 모델을 개선하고, 개발팀에서 모델을 사용할 수 있도록 제공한다. 

데이터 과학자는 ‘Statistician who can write code(직접 코드를 팔 줄 아는 통계학자)’이다. 반드시 R 또는 파이썬(Python)으로 코딩을 할 줄 알아야 하고, 여기에 SQL까지 능숙하게 다루어 분석을 위한 밑재료를 스스로 준비할 있다면 금상 첨화일 것이다.

 

“미래의 시민에겐 통계적 사고가 쓰는 능력만큼이나 중요하게 될 것이다.”
- 사무엘 윌크스 

 

그것이 R고 싶다 

도서관에서 눈에 띈 한 권의 책, ‘그것이 R고 싶다’의 저자인 양중기 님은 데이터 과학 전문가란 직업으로 활동하고 있다. 9년간 R을 다뤄왔으며, 20편 이상의 데이터 분석 논문을 발표했다. 의학연구소에서 데이터 분석을 시작으로 게임 데이터 분석팀을 이끌어 빅데이터 처리 프로세스를 개발하고, 데이터에서 인사이트를 발굴하는 등 데이터 전문가로 활동하고 있다.

이 책에서 데이터는 무엇인가부터 데이터 과학을 공부하는 이유에 대해서 자세한 설명이 전개된다. 데이터의 어원은 라틴어 단어 Datum의 복수형인 Data에서 유래했으며, 라틴어에서 Datum의 뜻은 ‘present/gift, that which is given, debit’이다. 현재에서도 기본적으로는 복수형 취급을 하나 가끔 하나의 고유명사화가 되어서 단수로 취급하는 경우도 있다.

데이터는 정의는 다음의 세 가지이다.

  • 이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료
  • 관찰이나 실험, 조사로 얻은 사실이나 자료
  • 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 자료

데이터는 “정보가 아니라 자료임에 유의하자.” 자료(data)를 가공해 얻는 것이 정보(information)다.

“데이터에 구조를 부여하고, 비정상적인 데이터를 배제하고, 빠진 데이터를 채워 넣고 오류를 바로잡고, 비즈니스의 목적에 따라 데이터를 선택하고 통계적 모델을 고민하고 머신러닝 학습을 수행해서 모델을 선정하고, 결과를 검증하고, 모델을 개선하고, 개발팀에서 모델을 사용할 수 있도록 제공한다.”

<그림 1>은 책을 통해 공부하면서 만든 맵이다. 한 장의 콘셉트 맵은 시간이 지나도 오랫동안 책의 내용이 기억나게 하고, 언제든지 나의 데이터베이스에서 꺼내 볼 수 있는 장점이 있다. 

 

그림 1. 그것이 R고 싶다(양중기 저) 콘셉트 맵(by 류용효)

 

 

엔지니어링 분석(Engineering Analytics)

프로젝트를 하면서 세간에 화제가 된 백스페이스, 즉 비활성 윈도우 매크로 프로그램은 사용자와 상호작용 없이 백그라운드에서 대상 윈도우에 키보드와 마우스 이벤트를 보내는 용도로 만들어진 프로그램인데, 회사 업무에 많은 도움을 줄 수 있는 역할도 하고 있다는 사실도 알았다. 

그리고 엑셀이 여전히 데이터 분석에 많은 역할을 하고 있음을 새삼 느낀다.
 
모든 일에는 여전히 ‘Hands On’이 중요하며, 적접 해 보는 것이 최선일 때가 많다.
 
50대 이후를 살아가는 사람들에게 아름다운 직업과 역량을 발휘할 수 있는 삶의 무기가 될 수 있음을 느낀다. 물론 자신의 전문분야에 Add-on임을 명심하자. 

요즘 멘토로 삼고 싶은 분이 데이터 분석가이다. 

아직까지 주변에서 데이터 분석가의 본질을 실감나게 본 적이 없어서 더 호기심이 생긴다. 소리 없이 다가와서 조용히 알려주는 그런 데이터 분석가. 주변 고객 중에 이런 성향을 가진 분을 발견했다. 자신의 일에 열정과 열의가 차 있다. 그리고 항상 당당함에 박수를 보낸다. 

스스로 소리 없이 요란하지 않게 할 수 있는 멋진 능력자. 

 

“저것은 넘을 수 없는 벽이라고 고개를 떨구고 있을 때, 담쟁이 잎 하나는 담쟁이 잎 수천개를 이끌고 결국 넘는다.”
- 도종환 

멋지게 성공한 친구의 회사 벽에 걸려 있는 문구이다. 그리고 그를 따르는 참모진을 보면서 린 피터스의 말이 떠오른다. “행복이란 내가 갖지 못한 것을 바라는 것이 아니라 내가 가진 것을 즐기는 것”이라고. 친구는 아마 그들에게 담쟁이 가장 선두에 선 잎이지만, 수 천 개의 담쟁이 잎 같은 그와 비전을 함께 하는 동료들과 함께 역경을 헤쳐나가며 사업을 키우는 모습에 박수를 보낸다. 

728x90
반응형
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함