-
[Data Science 도서리뷰/데이터 민주화와 셀프서비스 데이터] Chapter 01. 소개Data Science/(도서리뷰) 데이터 민주화와 셀프서비스 데이터 2022. 10. 11. 17:00
게시글 작성을 위해 "데이터 민주화와 셀프서비스 데이터", 샌딥 우탐찬다니, 2022 중 일부 내용을 발췌하였음.
원문을 그대로 발췌한 경우, 파란색 이탤릭체로 표기함.
[이전 게시글]
Chapter 00. 책 소개이자 회고 : https://da-mistakes.tistory.com/6
- 데이터는 새로운 '석유'다. 기업 내에서 수집되는 정형, 반정형, 비정형 데이터의 양은 기하급수적으로 증가했다. 데이터에서 얻은 인사이튼는 모든 기업의 중요한 차별화 요소이며, 제품의 기능과 비즈니스 프로세스 향상에는 머신러닝 모델이 사용된다. -
제 1장. 소개
"데이터 = 21세기의 석유" 라는 말은 이제 관용어이다. 이 비유가 정말 알맞다고 생각하는 이유 중 하나는, 석유와 마찬가지로 '어디에 내가 원하는 데이터가 있는 지 확인하기가 어렵다'는 점, '알맞은 데이터를 찾았고, 추출했다고 해서 바로 쓸모있는 자원(정보)이 되지는 않는다는 점'에 있다.
저자는 다음 기사(https://venturebeat.com/ai/why-do-87-of-data-science-projects-never-make-it-into-production/)를 인용하며 어떤 ML 알고리즘 기반의 Production을 만들어나간다고 했을 때, 전 과정에 드는 노력을 100%라고 하면 구현에 사용되는 것은 5%도 되지 않는다고 지적한다. 일반적인 데이터마이닝 관련 수업에서 교과서적인 표현으로 '데이터 분석 전과정에서 데이터 전처리에 드는 노력이 약 80% 이상이다.' 라는 말을 자주 듣게 되는데, 매우 일맥상통하다고 보여진다.
경험적으로는 이보다 더 나아가 전처리는 커녕 '그래서 그 데이터 도대체 어디에 있나?' 하는 상황에서도 많은 시간을 소모하게 된다고 느낀다. 문제는 이 지점에서, 유저셋을 활용하거나 개개인의 playground를 만들어 사용하게 되면서 동일 자원의 이중, 삼중 개발을 야기한다거나 관리 차원이 이원화 되는 등의 문제, 또는 사일로 현상을 일으키는 문제 등이 야기되곤 한다는 점이다.
실상 이러한 데이터 엔지니어링 단계에서의 복잡도 증가는 데이터 분석가(또는 데이터 사이언티스트)의 핵심 역량인 '인사이트 도출, 정보의 재생산'을 어렵게 한다. 그렇다고 해서, 이 모든 일을 명확히 구분지어 분석가는 분석만 하고 데이터 엔지니어는 엔지니어링만 한다면 이 문제가 해결될까? 나는 아직 경험해보지 못했지만, 저자는 이 부분에 대해 다음과 같이 지적하며 이 책의 방향성을 밝힌다. :
'비즈니스 전후 사정에 대한 이해가 부족한 데이터 엔지니어나 플랫폼 IT 엔지니어에 의존하느라 늘 병목 현상이 발생한다. (...) 데이터 시민(사용자)은 늘어나는데 엔지니어링이 복잡하다보니, 데이터 분석가와 과학자만 데이터에 접근할 수 있게 돼 데이터 민주화는 더운 요원해지는 것이다. (...) ML 프로그래밍의 발전에 관한 많은 책과 특정 데이터 기술에 대한 심층적인 책들이 나와 있기는 하지만, 다양한 데이터 사용자 지원을 위한 셀프서비스 플랫폼 개발에 필요한 데이터 엔지니어링 운영 패턴에 대한 글은 거의 없다.'
ML인사이트를 다룬 셀프서비스 플랫폼으로는 TensorFlow Extended, 페이스북의 FBLearner 등이 있겠으나, 기타 솔루션들의 예를 생각해보아도 한 가지 플랫폼만으로 기업 현황에 알맞는 해결책이 되는 경우는 거의 없을 것이다. 때문에 결국 거시적인 관점에서는 ML 프로덕트가 서비스화 되기 까지의 여정을 Overview 해볼만한, 파악을 위한 프레임워크가 필요하고 그에 따라 본 책은 셀프 서비스 케이스에 따른 방법론적인 예시를 들어주겠다고 한다.
이 책의 제안이 나의 니즈에 맞았던 이유는 내가 속한 기업이 제법 '테크 기업'을 표방하고 있음에도 엔지니어링 관점에서의 복잡도가 높아 데이터 파악에 많은 시간을 투입해야할뿐더러 레거시가 소수 인원에 의해 개발된 탓에 전체적인 워크플로우를 Overview 하기가 어려웠기 때문이다(지금은 가능한 워크플로우를 모듈별로 나누어 UML이라도 그려가며 파악중).
아무튼 그런 연유로, 낯부끄럽지만 (회사의 수준이 아닌) 나의 수준에서는 '데이터 사이언티스트'를 목적으로 하는 주제에 데이터를 셀프 서비스 하지 못하고 있다는 점을 보완하고자 이 책을 선택하게 되었다.
저자는 '데이터 기술에 상당한 투자를 했음에도 셀프서비스 데이터 플랫폼 계획이 시작되지 못하거나 중단되는 이유'를 다음 세 가지로 정리했다. :
(1) 데이터 사용자가 겪는 진짜 고충이 잘못 번역되는 것 :요컨대, 개발자와 사용자의 이해 수준 불일치.
(2) 기술 자체를 위해 '반짝이는' 신기술을 채택하는 것 : 요컨대, 성과지상의 투자.
(3) 전환 과정에서 너무 많은 문제를 해결하려고 하는 것 : 요컨대, 한번의 도입으로 지엽적인 문제까지 해결하려는 행동.
원시 데이터에서 인사이트로의 여정 지도
데이터 웨어하우징 시대에서 빅데이터 시대로 넘어가며, '데이터 분석'의 가치인 인사이트 추출 방식 또한 변화했다. 빅데이터 시대에 들어서의 변화를 요약하면, 상호 운용성의 제한이 장벽이 낮아져 인사이트 도출에 이르기까지의 여정에 각각의 목적에 맞는 도구를 채택할 수 있다는 점이다. 저자가 제언한 Raw to Insight의 여정은 '발견 - 준비 - 구축 - 운영화'로 이루어져 있으며 여기에 소요되는 시간을 '인사이트 시간'이라고 부른다.
발견
이 단계를 요약하면, 기업 내 지식 확장을 위해 가용한 수단을 발견하는 과정이다. 데이터 분석 과정에 빗대면 EDA(탐색적 자료분석)와 과정상 유사하다고 느껴진다. 다만, 기 개발된 테이블의 개별 속성을 탐색해나간다기 보다는 좀 더 메타적인 관점에서 데이터를 탐색한다는 점에서 약간의 차이가 있는 듯 하다. 발견 단계의 마일스톤을 정리하면 다음과 같다. (다만, 저자는 책에서 각 마일스톤을 평가할 KPI 또한 제안했는데 개인 취향에 맞지 않아 정리에서 제외함.) :
(1) 데이터 세트의 메타데이터 세부 정보 발견 : 데이터 간 상호 연결을 위해 데이터 명세 확인에 필요한 메타 데이터 발견
(2) 사용 가능한 데이터 세트 및 아티팩트 검색
(3) ML 모델에서의 기능 재사용 또는 생성 : 기존 피처의 재활용
(4) 누락된 데이터 집계 : 데이터 이동의 파이프라인화(메인테넌스의 관점)
(5) 클릭스트림 이벤트 관리 : 고객 행동 데이터 영역 관리
준비
이 단계를 요약하면, 실제 비즈니스 로직 구축용 데이터를 준비하는 단계이다. 데이터 거버넌스를 충족한다는 가정하에 데이터를 전처리하는 것으로, 나의 시각에서는 데이터 파이프라인의 초기 설치에 가깝다고 보인다.
(1) 중앙 저장소 내의 집계 데이터 관리 : 데이터 레이크에 통합된 데이터(예를 들어, 운영 DB)를 목적에 맞게 재집계
(2) 데이터의 구조화, 정리, 보강, 유효성 검사 : 이상값 등의 처리, 요약하면 '데이터 랭글링' 과정
(3) 데이터 권한 규정 준수 보장 : 데이터 컴플라이언스 체크
구축
이 단계를 요약하면, 말해 뭐해. 구현이다.
(1) 데이터 액세스 및 분석을 위한 최상의 접근 방식 결정
(2) 변환 로직 작성
(3) 모델 학습
(4) ML모델 변경 사항의 지속적인 통합
(5) 인사이트 A/B 테스트
운영화
(1) 쿼리 검증 및 최적화
(2) 파이프라인 오케스트레이션
(3) ML 모델 배포
(4) 인사이트 품질 모니터링
(5) 지속적인 비용 모니터링
인사이트 시간 스코어카드 정의
이 파트는 일종의 KPI를 다루지만, 모니터링 환경이 미리 구축되지 않은 경우 효과적일 수 없을 것 같다는 판단이 들어(그러니까 당장 내가 활용해보기엔 어려워서) 정리에서 제외함.
이상으로 우선, 임시로 이 글을 갈무리하고 각 단계의 예시를 내가 하는 업무에서 따와 정리해보겠다.
공부해보다보니 마치 정보시스템 특론을 공부하던 때의 느낌이 살짝 드는 듯?개념만 외우듯 공부하기 보단 실제 업무에 적용해보면서 내재화 할 필요 있음.
'Data Science > (도서리뷰) 데이터 민주화와 셀프서비스 데이터' 카테고리의 다른 글
[Data Science 도서리뷰/데이터 민주화와 셀프서비스 데이터] Chapter 00. 책 소개이자 회고 (0) 2022.10.09