이 책은 한빛미디어 <나는 리뷰어다=""> 활동을 위해서 책을 제공받아 작성된 서평입니다. 파이썬 데이터분석 내용을 빠르게 한 번 정리해 보려고 이 책을 선택 했습니다. 이책의 강점은 저자분이 [박해선](https://github.com/rickiepark) 으로 `파이썬 라이브러리를 활용한 머신러닝`, `파이썬을 활용한 머신러닝 쿡북` 등을 번역한 분으로 내용은 군더더기 없을 것으로 생각 되었습니다.나는>
전체 내용을 살펴본 결과, 이 책은 기초통계를 익힌 대학생 또는 직장인 분들이 파이썬 기초관련 도서를 1권 정도 이해를 한 뒤에, 실습에 투입되기 전 기초 체력을 빠르게 익히는 것을 목표로 하고 있습니다. 때문에 Pandas
또는 Sklearn
과 관련한 책을 1권 정도 학습하신 분들이라면 수월하게 따라갈 수 있을 정도로 쉽고, Python
만 익힌 상태에서 통계의 기초
와 관련한 내용을 잘 모르시는 분들은 이런 방식으로 알아가면 되겠구나 맛보기 정도로 접근하시면 좋은 책입니다.
이책의 최대 장점은 내용을 진행하다가 추가로 인터넷 검색 및 다른 도서 등을 찾아보지 않아도 될 정도로, 이해하기 필요한 개념 및 모듈과 메서드 관련 내용들이 잘 정리되어 있다는 점이고, 단점은 이 때문에 내용이 너무 많아서 초보자가 모든 내용을 이해하면서 진행하려는 욕심을 버리고, 반복 학습하며 전체 내용을 익힌다는 관점으로 접근을 한다면, 이 책에 대한 YouTube 채널도 있고, 부록들고 짜투리 시간에 활용하기 좋게 잘 정리되어 있습니다.
Chapters
Chapter 03 데이터 정제하기
Pandas
를 활용한 데이터 필터링 작업
실습을 다루는 챕터 입니다. 지금까지 제가 작업하면서 필요한 메서드 들이 모두 잘 담겨 있어서 알차게 구성되어 있었습니다. 각 장마다 작업에 사용한 Pandas 메서드 들이 정리되어 있어서 처음 학습하시는 분들은 매 챕터에서 활용하는 판다스의 메서드
를 마무리
페이지 내용을 중심으로 정리를 하면 좋을거 같습니다.
하지만 본문에는 마무리
페이지에서 다루지 않은 수많은 메서드
와 각각 메서드의 옵션
에 대한 설명들이 담겨있어서, 초반에 책 내용을 따라가다가 어려운 내용이 많아서 힘들다고 생각되시는 분은 옆에 노트를 준비하시고 마무리
에 나오지 않은 메서드와 옵션들을 추가로 정리하시면 많은 도움이 될 것 입니다. 책에서도 이러한 필요성을 알고 있어서 P 459
의 부록 B 에 정리되어 있습니다.
Chapter 04 데이터 요약하기
02 장
에서는 데이터 수집에 관련한 내용을, 03 장
에서는 파이썬의 Pandas
모듈을 직접적인 예시를 통해서
메서드와 옵션 내용들을 익히고 실습하는 과정이었습니다. 이번 04 장
앞에서 수집한 데이터를 필터링 한 뒤, 통계적 분석
을 다루고 있습니다. 이번 챕터부터는 앞의 내용과 달리 결과값에 대해서 통계적인 개념의 이해
가 추가로 필요 합니다. 본 책에서 n-1 자유도
와 같이 어려운 개념에 대해 설명은 하고 있지만, 주된 내용이 아니라서 짧고 간단하게 언급되고 있습니다.
R
또는 SASS
등 통계적 도구를 다뤄본 경험이 있는 분들은 앞의 다른 내용보다, 이 부분이 흥미있게 진행하실 수 있도록 잘 정리가 되어 있었습니다.
반면 초보다 분들에게도, 통계와 관려난 개념들이 간락 하게라도 설명을 하고 있어서, 처음 접하시는 분들은 우선은 전체적인 내용을 실습하며 진행하는 방법을 추천 합니다. 그렇게 하지 않고 다른 더 쉬운 책을 찾아서 실습을 하다가 거기 에서도 막히면 또 다른책을 보다가 진행을 멈추는 시행착오를 주변에서 많이 볼 수 있었습니다.
그런 측면에서 이 책은 전체적인 데이터 분석 프로세스를 경험해보는데 도움이 되기 충분했습니다. 정 이해가 가지 않는 분들은 (데이터 분석 기초 강의) 혼자 공부하는 데이터 분석 with 파이썬 유투브의 내용을 우선은 외운다
는 생각으로 차근 차근 진행해 보는 방법을 추천 합니다.
이 책의 장점이 유투브 강의인데, 박해선
분의 유투브로 핸즈온 머신러닝
등도 모두 올려져 있는 만큼 여러번의 동영상 정리 내용들은 잘 정리되어 있습니다. 다만 학원 1타 강사님들과 같이 엑센트를 주고 하는 부분은 부족하지만 전체적으로 30분 이내의 동영상으로 구성되어 있는 만큼 앞의 다른 내용들은 책의 내용을 보면서 실습하기에 충분해서 동영상을 보는 것 까지는 언급하지 않았 었지만, 4장 통계와 뒤 이어 나올 통계적 추론
및 인공지능
과 관련한 내용들은 다른 동영상을 보면 훨씬 길어서 이해하는데 오랜 노력이 필요한 만큼 이 책을 통해서 내용을 익히기로 생각하셨다면 동영상을 바탕으로 이해가 된 만큼만 익히고 넘어가는 것도 요령이 되겠습니다.
그리고 이 책의 장점중 하나가 맨 뒷 페이지에 붙어있는 혼공 용어노트
입니다. 내용이 마무리 될 때마다 마무리
페이지에는 파이썬 메서드 및 옵션 내용들이 정리되어 있었다면 맨 뒤에는 분석에 필요한 개념들을 저자가 정리한 노트가 제공되고 있습니다. 저는 노트보단 책에 낙서를 하면서 정리하는 것을 좋아하는데, 학생분이나 직장인 분들 에게는 짜투리 시간에 이 노트를 활용하면 기초통계
및 통계적 추론
과 관련한 개념들을 이해하는데 도움이 될 것입니다.
05, 06 데이터 시각화하기
5장은 matplotlib
를 활용한 시각화를 다루고 있습니다. 개인적으로는 반응형 그래프를 선호해서 Plotly Dash
를 사용하고 있습니다. 이 책을 익히시고 나서 Plotly OverView 내용을 통해서 같은 내용을 구현해보는 실습을 추천 합니다.
Plotly
로 그래프를 그리는 내용이 matplotlib
와 너무 유사하기 때문에, 어려움 없이 적응하실 수 있을 것입니다.
07 통게적 추론 및 머신러닝
앞의 통계기초
를 바탕으로 통계적 추론
에 대한 실습을 하는 페이지 입니다. 통계적 추론은 Scipy
를, 머신러닝은 sklearn
을 실습하는 내용입니다. 어떻게 접근을 하는지 맛보기 정도만 언급되고 있고, 조금 더 심화된 내용을 알 고 싶으신 분들에게는 저자가 번역한 파이썬을 활용한 머신러닝 쿡북
을 추천 합니다.
가장 추천하고 싶은 책은 이 책 저자가 번역한 파이썬 라이브러리를 활용한 머신러닝
이지만, 수학의 정석
처럼 내용이 나열 식이라 좀 지루하고, 깊이있는 설명 때문에 진도 나아가기가 쉽지 않은 책입니다. 때문에 이 책으로 데이터 분석의 기초를 정리 하셨다면, 이 책을 반복하는 것 보다는 파이썬을 활용한 머신러닝 쿡북
이 거의 동일한 파이썬 모듈을 갖고서 조금 더 깊이 있게 진행이 되고 있어서 쉽게 내용들이 이해되실 수 있을 정도로 잘 정리된 책입니다. 때문에 이 책이 만족스러우신 분들에게 부족한 것을 채우기 위해서 파이썬을 활용한 머신러닝 쿡북
을 꼭 추천 합니다.