Data Science/(도서리뷰) 데이터 민주화와 셀프서비스 데이터

[Data Science 도서리뷰/데이터 민주화와 셀프서비스 데이터] Chapter 00. 책 소개이자 회고

진대현 2022. 10. 9. 04:53

게시글 작성을 위해 "데이터 민주화와 셀프서비스 데이터", 샌딥 우탐찬다니, 2022 중 일부 내용을 발췌하였음.

원문을 그대로 발췌한 경우, 파란색 이탤릭체로 표기함.

 

빅 데이터, 이 단어를 읽을 때마다 나는 2015년 쯔음으로 되돌아가는 상상을 하곤 한다. 군 전역 후 무지했던 나는, 이 또한 청년 창업이라던지 하는 것처럼 유행으로 끝날 무언가라고만 적당히 생각하고 말았다. 대체로 대학 게시판마다 무질서하게 붙어있는 포스터라던지, 건물 사이사이에 멋대로 걸려있는 현수막이라던지 하는 것처럼 말이다.

미생물 시험이란, 이런 것(출처 : 본인).

졸업 후, 첫 직장(엄밀히 말해 첫 직장은 아니었으나···)이었던 그냥 저냥 먹고 살길을 찾다가, 이름은 들어본 식품회사 연구소에 입사했다. 제조본부의 한 부서이기도 하면서, 연구소의 한 자리를 차지하였으며 공인시험기관(KOLAS)이기도 한 그곳에서 나는 시험 분석, DOE(실험계획) 등의 QA업무를 하게 되었다.

 

그리고 입사 후 1년이 되었을 쯔음, '빅'은 커녕 '데이터'라는 말과는 전혀 개연성이 없을 식품 개발 연구원 출신의 임원 입에서 '니네도 LIMS(실험실정보관리시스템) 라는 것 좀 알아보고, 그 빅데이터인지 뭔지 하는 것 좀 해보라.' 는 말을 듣게 되었다. 그 말을 시작으로, 나의 커리어 방향성은 내가 생각했던 것과는 전혀 다르게 흘러 지금에 이르게 되었다.

MALDI-TOF를 이용한, 지긋지긋한 균주 동정

당시에 내 업무의 대부분은 식품안전 관점에서 미생물 위해에 대한 QA/QC를 하는 것이 대부분이었고, 고작 내가 해오던 데이터 분석이라는 것은 (아주 아주 이따금씩 부서장님 요청으로) 학부 때 배운 통계 프로그램 R이나 SAS를 이용해 통계 검정을 하고, 통계적 품질관리의 관점에서 - 실험업에서는 '측정불확도'라고 하는- 시그마 계산하는 정도에 가까웠다. (이 당시 나는 품질경영이라던지, 식품 미생물이라던지 하는 도메인 관련 공부나 열심히 하던, 공장장이 꿈인 사람이었다.)

 

이마저도 식품, 생물, 화학 전공한 사람들 틈바구니에서 혼자 일을 스스로 만들어서 업무를 진행하던 수준이었다. 때문에, 업무에 대한 애정이 있을리 없었다. 또한 그래서, LIMS 도입 TF라는 업무는 ERP 등 정보시스템에 대한 이해와 통계를 베이스로 갖고 있던 내게 식품안전 업무보다는 흥미롭게 다가왔다.

 

그러나, 그런 베이스의 내가 이해하게 된 데이터 무결성이라느니, 혹은 그 때문에 얻어낼 수 있는 휴먼 에러의 저감이라느니 하는 것은 부서 구성원들에게 이해시킬 수 없는 것이었다. 이화학이든 미생물이든 실험 결과가 데이터베이스에 영영 지울 수 없게 그들이 이해하기 귀찮은 '어딘가'에 남는다는 것은 그들에게 리스크 헷징을 할 기회를 빼앗는 것밖에 되지 않았을 터였다. 나또한 이러한 조직 구성원에 대한 이해도 없이 위에서 시키는대로 LIMS를 들이밀었으니, 서로 어찌나 불편한 상황이었을지. 심지어는 누가봐도 갈팡질팡하는 통에 잘 되어갈 일도 아니었기 때문에 누군가가 보기엔 나라는 사람이 정말 안타깝거나, 멍청해보였을 것이다.

 

어찌됐건 당시의 나로서는 시약값, 초자값으로 한번에 적게는 몇 만원 많게는 수십만원이 드는 실험들···. 그러나, 그 어느 곳에도 저장되지 않는 실험값, 수기로 관리되는 데이터들 ··· 그것들을 그저 홀로 바라보고 있을 뿐이었다. '예측'에 대해 아주 기초적인 지식(기껏해야 회귀분석)을 갖고 있던 나였지만, 이것들을 일단 모아두긴 해야되는 것 아닌가, 통합해야하는 것 아닌가, 그런 생각에 나는 점점 더 젖어 들었다. 나는 표면적으로든, 내심으로든, 도저히 당시의 내 능력으로는 구조화할 수 없는 이 '미지의 중요성'을 부서원들에게 알리고자 많이 애썼다. 문제는 그게 내 능력 밖이었다는 것을 잘 몰랐다는 데에 있다.

 

하지만 역시나, 도입은 무산되었다. 그리고 나는 퇴사했다. 뭐 꼭 그 하나만의 이유로 일을 관둔 것은 아니지만.

 

돌이켜 생각해보면, 나는 시대가 크게 변화하는 어떤 지점 - 꼭 변화의 한복판은 아닐지언정 어떤 변곡점- 에 있었던 것이 분명했고, 그 변화의 메시지는 분명한 모습으로 나에게 다가왔다. "데이터의 중요성이 전제된 곳에서 일해야 한다."고.

 

그것이 내가 대학원에 입학해 데이터 마이닝 연구실을 찾아가게 된 과정이며, 지금의 직장에 이르게 된 과정의 요약이다. 그러니, 이 책의 제목인 데이터 민주화와 셀프서비스 데이터라는 문장은 참으로 멋진 말이다. 모두가 데이터의 중요성을 안다는 전제를 갖고, 데이터를 '셀프서비스' 하는 것까지 욕심내자는 말이니. 참 짧은 시간이 지났을 뿐인데, 스물 일곱의 내가 느꼈던 미지의 공포와 기회는 이토록 분명히 구체화되어 사회에 뿌리 내렸고, 그리고 그보다도 더 나아가서, 멋진 말이 되어 돌아왔다. 그러니 멋지다고 생각할 수밖엔.

 

--------------------------------------------------

 

이 책의 첫 장은 이렇게 시작한다.

 

- 데이터는 새로운 '석유'다. 기업 내에서 수집되는 정형, 반정형, 비정형 데이터의 양은 기하급수적으로 증가했다. 데이터에서 얻은 인사이튼는 모든 기업의 중요한 차별화 요소이며, 제품의 기능과 비즈니스 프로세스 향상에는 머신러닝 모델이 사용된다. -

 

그리고, 저자는 기업이 가진 데이터는 풍부하지만 인사이트가 부족하다고 지적한다. 인사이트는 데이터 과학자가 얻어내야만 할 명확한 성과임에도, 인사이트 추출 보다는 데이터 엔지니어링에 너무나 많은 시간을 소비하고 있는 것이 현실이기 때문이라는 것이다. 이것은 내 개인의 경험에 비추어 보았을 때 사실인 듯 하다.

데이터 사이언티스트로 한걸음 내딛을 때만 해도, 내가 갖고 있던 '데이터 분석' 이라는 업의 형태는 이런 것이 아니었다. 그러나, 입사 후 나는 그동안 연구 목적으로 받아보던, 사용하던 데이터들이 참으로 예쁜(!) 데이터 였다는 사실을 알게 되었고 교과서의 '데이터 전처리에 전체 노력의 80%가 들어간다.'는 표현의 진짜 의미를 알게 되었다. 현실에게 제법 많이 얻어 맞았다는 얘기다. 여전히 매일 얻어 맞고 있고.

 

다시 이 책으로 돌아가, 저자는 원시 데이터에서 우리가 원하는 인사이트에 이르기 까지의 여정을 도식을 통해 구조화해주었다. 방대한 데이터를 이용해 일하다 보면 '내가 대체 뭘 하고 있는지'를 까먹을 때가 많은데, 이 책은 이러한 구조적 정의를 전달해주어 워크플로우를 구체화하는 것에 큰 도움이 되고 있다. 그 때문에 나는 이 책을 좀 더 면밀히 읽고 나의 지식으로 내재화하고 싶어져 이 글을 쓰게 되었다.

소개 및 회고는 여기까지로 하고 책의 챕터 별 내용에 대한 리뷰를 이어가도록 하겠다(시리즈에서 계속).