총평을 하면, 이번 책은 데이터 분석에 대해 다양한 경험이 있는 저자가 자신의 경험과 노하우를 책 한 권에 모아서 전달하려는 내용 이었습니다. 다양한 경험을 책 한권에 다루다 보니 생각보다 많이 아쉬웠습니다.

직접 보기 전에는 파이썬 실습을 통해서 데이터가 무었이고 어떻게 다루면 되는지를 경험할 수 있는 피처 엔지니어링, 제대로 시작하기 2019 와 비슷한 책으로 기대를 했었습니다. 하지만

  1. 여러 개념들이 설명으로 넘어가고 실습 및 구체적 예시는 상당히 부족했다.
  2. 실습 도구도 다양하게 나와서 겉 핥기 수준에 그쳤다. (dbt, Airflow, SQlite3 등등…)
  3. 이해를 돕기위한 Query 문도 dbt, Sqlite3, AWS 스칼라 등 일관되지 않았다

코딩 인터뷰 합격후기 처럼 전체적인 내용을 경험하고 이해를 한 저자가, 앞으로 데이터 분석 을 시작하는 분들에게 필요한 개념들실무에서 격을 수 있는 문제들 그리고 이를 해결하기 위해 필요한 역량과 패키지 가 어떤 내용이 있는지 소개를 하는 측면이 강해 보였습니다.


데이터 품질의 비밀

1장 지금 데이터 품질에 주목해야 하는 이유

단일 서비스 내부에서도 사용자 편의를 돕기 위해서 간단하게는 댓글 과 추천에서 각 사용자 맞춤형 알고리즘을 제공 합니다. 이로인해 부가적인 데이터들이 생성 및 관리가 필요하게 되는데 이러한 상황을 관리하는 개념 중 하나로 데이터 매시라는 개념이 부각 됩니다. 이는 뒤의 4장 데이터 파이프라인 모니터링 및 이상감지 에서 자세하게 다루게 됩니다.

데이터 매시 (자마크 데가니)

2장 신뢰할 수 있는 데이터 시스템 구축을 위한 블록조립

이번 장에서는 데이터관리에 필요한 기본 개념들이 설명 되는데, 초보인 분들이 보기에는 너무 많은 개념들이 간단한 설명으로 넘어 갑니다. 때문에 경험이 있는 분들이 아니라면 2장에서 부터 내용을 따라가기 어려워 보였습니다.

3장 데이터 수집,정제,변환, 테스트

앞에서는 개념들을 설명하는 단계였다면, 이번 장 부터는 실제 데이터를 다루면서 경험할 수 있는 상황들에 대해서 설명을 하는데, 이해를 돕기위해 예시로 언급하는 내용이 dtd, greatexpectations 클라우드 서비스, Awslabs / Deequ, Apach AirFlow 등의 패키지에 대해서 다루고 있었습니다.

그리고 위에 언급된 내용 중 Airflow 가 그나마 많은 분량을 차지하고 있었지만, 그마저도 설치 및 실행하는 방법, 언급된 내용을 실습하는데 필요한 과정들이 다 빠지고 파편적으로 다루고 있어서 아쉬움이 많았습니다.

4장 데이터 파이프라인 모니터링 및 이상 탐지

다뤄지는 데이터가 실제 서비스를 관리하는 사용자 가입일, 방문횟수, 자주가는 게시판, 추천인 수 와 같이 실제로 다루는 내용이 아니라 행성 고유번호, 지구로 부터 거리, 표면중력, 공전길이, 표면온도 와 같이 뜬금없는 자료를 갖고서 분석을 진행하고 해당 내용에 대해서 이상한 점은 없는지, 이를 어떻게 잘 관리하는지 설명을 하는 부분들이 오히려 내용을 이해하는데 어려움이 있었습니다.

실습에 필요한 언어와 도구로 SQLite3, JupyterNotebook, Python 을 언급하고 있어서 (Page 113) 뭔가 직접적인 실습이 가능하겠구나 하는 기대를 가졌습니다. 하지만 Sqlite3 Query 실습이 대부분이고 이를 시각화 하는 (Page 116) 내용은 단순히 그림에 그치고 이에 필요한 실습코드는 설명을 하지 않고 넘어 갔습니다.

저자들이 작성한 Jupyter Notebook nbviewer 링크를 클릭하면 저자들이 작성한 Jupyter Notebook 내용을 웹으로도 바로 볼 수 있었습니다. 이러한 내용또한 책을 읽다가 검색을 통해서 확인을 한 내용이지 바로 알기는 어려워서 아쉬웠습니다.

5장 이후…

개념의 설명 및 저자가 제공하는 실습 내용은 4장까지로 끝나고 나머지 내용들은 각 단계별로 경험을 통해서 익혔던 내용들을 설명하는데 그치고, 해당 내용을 이해하는데 도움이 되는 데이터 예시실습 관련 내용들은 제공하지 않은 점들이 아쉬웠습니다.

9장 현실에서의 데이터 품질 : 전문가 대담과 사례 연구

만약 데이터 관련 인터뷰 등을 준비하는 분이라면 이 장만은 꼼꼼히 읽으면 많은 도움이 되어 줄 것으로 보였습니다.


마무리

데이터와 관련하여 전문가 유투브 등을 보시기 전에 이 책을 통해서 전체적인 개념들을 익히시는데는 도움이 될 것입니다. 하지만 위에서 반복하며 이야기를 한 것처럼 데이터 관리에 관한 경험이 부족한 분들이라면 이 책을 읽고 이해하기에는 어려움이 많아 보여서 아쉬웠습니다.

때문에 데이터와 관련한 내용을 이해하는데, 경험이 부족한 분들이라면 위에서도 언급했던 피처 엔지니어링, 제대로 시작하기 2019 등 먼저 도움을 받으시기 바랍니다.

데이터 품질의 비밀