이 책은 한빛미디어 <나는 리뷰어다=""> 활동을 위해서 책을 제공받아 작성된 서평입니다. 파이썬 데이터분석 내용을 빠르게 한 번 정리해 보려고 이 책을 선택 했습니다. 이책의 강점은 저자분이 [박해선](https://github.com/rickiepark) 으로 `파이썬 라이브러리를 활용한 머신러닝`, `파이썬을 활용한 머신러닝 쿡북` 등을 번역한 분으로 내용은 군더더기 없을 것으로 생각 되었습니다.

전체 내용을 살펴본 결과, 이 책은 기초통계를 익힌 대학생 또는 직장인 분들이 파이썬 기초관련 도서를 1권 정도 이해를 한 뒤에, 실습에 투입되기 전 기초 체력을 빠르게 익히는 것을 목표로 하고 있습니다. 때문에 Pandas 또는 Sklearn 과 관련한 책을 1권 정도 학습하신 분들이라면 수월하게 따라갈 수 있을 정도로 쉽고, Python 만 익힌 상태에서 통계의 기초 와 관련한 내용을 잘 모르시는 분들은 이런 방식으로 알아가면 되겠구나 맛보기 정도로 접근하시면 좋은 책입니다.

혼자 공부하는 파이썬 데이터 분석

이책의 최대 장점은 내용을 진행하다가 추가로 인터넷 검색 및 다른 도서 등을 찾아보지 않아도 될 정도로, 이해하기 필요한 개념 및 모듈과 메서드 관련 내용들이 잘 정리되어 있다는 점이고, 단점은 이 때문에 내용이 너무 많아서 초보자가 모든 내용을 이해하면서 진행하려는 욕심을 버리고, 반복 학습하며 전체 내용을 익힌다는 관점으로 접근을 한다면, 이 책에 대한 YouTube 채널도 있고, 부록들고 짜투리 시간에 활용하기 좋게 잘 정리되어 있습니다.


Chapters

Chapter 03 데이터 정제하기

Pandas 를 활용한 데이터 필터링 작업 실습을 다루는 챕터 입니다. 지금까지 제가 작업하면서 필요한 메서드 들이 모두 잘 담겨 있어서 알차게 구성되어 있었습니다. 각 장마다 작업에 사용한 Pandas 메서드 들이 정리되어 있어서 처음 학습하시는 분들은 매 챕터에서 활용하는 판다스의 메서드마무리 페이지 내용을 중심으로 정리를 하면 좋을거 같습니다.

부록 B 함수와 메서드 정리

하지만 본문에는 마무리 페이지에서 다루지 않은 수많은 메서드와 각각 메서드의 옵션에 대한 설명들이 담겨있어서, 초반에 책 내용을 따라가다가 어려운 내용이 많아서 힘들다고 생각되시는 분은 옆에 노트를 준비하시고 마무리 에 나오지 않은 메서드와 옵션들을 추가로 정리하시면 많은 도움이 될 것 입니다. 책에서도 이러한 필요성을 알고 있어서 P 459 의 부록 B 에 정리되어 있습니다.

Chapter 04 데이터 요약하기

02 장 에서는 데이터 수집에 관련한 내용을, 03 장 에서는 파이썬의 Pandas 모듈을 직접적인 예시를 통해서 메서드와 옵션 내용들을 익히고 실습하는 과정이었습니다. 이번 04 장 앞에서 수집한 데이터를 필터링 한 뒤, 통계적 분석 을 다루고 있습니다. 이번 챕터부터는 앞의 내용과 달리 결과값에 대해서 통계적인 개념의 이해 가 추가로 필요 합니다. 본 책에서 n-1 자유도 와 같이 어려운 개념에 대해 설명은 하고 있지만, 주된 내용이 아니라서 짧고 간단하게 언급되고 있습니다.

R 또는 SASS 등 통계적 도구를 다뤄본 경험이 있는 분들은 앞의 다른 내용보다, 이 부분이 흥미있게 진행하실 수 있도록 잘 정리가 되어 있었습니다.

반면 초보다 분들에게도, 통계와 관려난 개념들이 간락 하게라도 설명을 하고 있어서, 처음 접하시는 분들은 우선은 전체적인 내용을 실습하며 진행하는 방법을 추천 합니다. 그렇게 하지 않고 다른 더 쉬운 책을 찾아서 실습을 하다가 거기 에서도 막히면 또 다른책을 보다가 진행을 멈추는 시행착오를 주변에서 많이 볼 수 있었습니다.

그런 측면에서 이 책은 전체적인 데이터 분석 프로세스를 경험해보는데 도움이 되기 충분했습니다. 정 이해가 가지 않는 분들은 (데이터 분석 기초 강의) 혼자 공부하는 데이터 분석 with 파이썬 유투브의 내용을 우선은 외운다 는 생각으로 차근 차근 진행해 보는 방법을 추천 합니다.

이 책의 장점이 유투브 강의인데, 박해선 분의 유투브로 핸즈온 머신러닝 등도 모두 올려져 있는 만큼 여러번의 동영상 정리 내용들은 잘 정리되어 있습니다. 다만 학원 1타 강사님들과 같이 엑센트를 주고 하는 부분은 부족하지만 전체적으로 30분 이내의 동영상으로 구성되어 있는 만큼 앞의 다른 내용들은 책의 내용을 보면서 실습하기에 충분해서 동영상을 보는 것 까지는 언급하지 않았 었지만, 4장 통계와 뒤 이어 나올 통계적 추론인공지능 과 관련한 내용들은 다른 동영상을 보면 훨씬 길어서 이해하는데 오랜 노력이 필요한 만큼 이 책을 통해서 내용을 익히기로 생각하셨다면 동영상을 바탕으로 이해가 된 만큼만 익히고 넘어가는 것도 요령이 되겠습니다.

부록 B 함수와 메서드 정리

그리고 이 책의 장점중 하나가 맨 뒷 페이지에 붙어있는 혼공 용어노트 입니다. 내용이 마무리 될 때마다 마무리 페이지에는 파이썬 메서드 및 옵션 내용들이 정리되어 있었다면 맨 뒤에는 분석에 필요한 개념들을 저자가 정리한 노트가 제공되고 있습니다. 저는 노트보단 책에 낙서를 하면서 정리하는 것을 좋아하는데, 학생분이나 직장인 분들 에게는 짜투리 시간에 이 노트를 활용하면 기초통계통계적 추론 과 관련한 개념들을 이해하는데 도움이 될 것입니다.

05, 06 데이터 시각화하기

5장은 matplotlib 를 활용한 시각화를 다루고 있습니다. 개인적으로는 반응형 그래프를 선호해서 Plotly Dash 를 사용하고 있습니다. 이 책을 익히시고 나서 Plotly OverView 내용을 통해서 같은 내용을 구현해보는 실습을 추천 합니다.

Plotly 로 그래프를 그리는 내용이 matplotlib 와 너무 유사하기 때문에, 어려움 없이 적응하실 수 있을 것입니다.

07 통게적 추론 및 머신러닝

앞의 통계기초 를 바탕으로 통계적 추론 에 대한 실습을 하는 페이지 입니다. 통계적 추론은 Scipy 를, 머신러닝은 sklearn 을 실습하는 내용입니다. 어떻게 접근을 하는지 맛보기 정도만 언급되고 있고, 조금 더 심화된 내용을 알 고 싶으신 분들에게는 저자가 번역한 파이썬을 활용한 머신러닝 쿡북 을 추천 합니다.

가장 추천하고 싶은 책은 이 책 저자가 번역한 파이썬 라이브러리를 활용한 머신러닝 이지만, 수학의 정석 처럼 내용이 나열 식이라 좀 지루하고, 깊이있는 설명 때문에 진도 나아가기가 쉽지 않은 책입니다. 때문에 이 책으로 데이터 분석의 기초를 정리 하셨다면, 이 책을 반복하는 것 보다는 파이썬을 활용한 머신러닝 쿡북 이 거의 동일한 파이썬 모듈을 갖고서 조금 더 깊이 있게 진행이 되고 있어서 쉽게 내용들이 이해되실 수 있을 정도로 잘 정리된 책입니다. 때문에 이 책이 만족스러우신 분들에게 부족한 것을 채우기 위해서 파이썬을 활용한 머신러닝 쿡북 을 꼭 추천 합니다.

파이썬을 활용한 머신러닝 쿡북