이 책은 Inside the Machine Learning Interview: 151 Real Questions from FAANG and How to Answer 23년 5월 에 출간된 원서를 번역한 책으로 입니다. 책 제목은 머신러닝 으로 적혀 있지만, 딥러닝 최신 기술인 대형 언어 모델(Large Language Models, LLM) 까지 다루고 있었습니다.

이 책의 가장 강점인 챕터를 골라본다면 4장 ML 시스템 설계 입니다. 가장 많은 분량을 차지하고 있는 부분으로 해당챕터 전체가 추천 알고리즘 내용으로 가득 채워져 있었습니다. IT 서비스 대부분이 사용자 특성에 맞춰서 서비스를 하는 것이 주요목적인 만큼 추천알고리즘 부분은 중요도에 비해, 데이터 분석 알고리즘 과 비해서는 상대적으로 소홀하게 다뤄지고 있는것이 파이썬 책들의 공통적인 특징입니다.

이 책은 저자가 Twitter (현재 X) 개발자 출신인 장점이 그대로 녹아 있는 책 입니다. 실제 작업을 하면서 추천 알고리즘 을 정리한 내용들을 볼 수 있다는 점에 있어서 강점이 두드러진 책 입니다.


총평

이 책의 전체적인 구성은 독자들이 면접 인터뷰 상황을 경험 할 수 있도록 예상되는 질문들해당 질문에 관련한 답변을 하는데 필요한 개념들을 질문 단위로 묶어서 설명하는 책 입니다.

마치 LLM 학습모델 중 Bert 학습을 위한 데이터 처럼 질문과 답의 관련성을 중심으로 책을 구성했기 때문에, 관련된 내용들을 어느정도 이해하고 있는 독자들을 대상으로 실제 인터뷰에 응하기 전에 빠르게 관련내용들을 확인 및 점검하기 위한 책 입니다. 이러한 특징으로 인하여 초보자 분들에게는 약간은 어려울 수 있어 보이는 구성의 책 입니다.

한편으로는 이와같은 특징을 이해하신다면 개발자 인터뷰의 질의응답 에 중점을 두고 책이 구성된 만큼 이러한 저자의 의도를 이해하며 책을 읽어나간다면 많은 도움이 될 것입니다.


장점

이 책의 최대장점은 위에서 설명한 것처럼 회사에서 예상되는 질문들을 미리 확인할 수 있다는 것 입니다. 질문의 갯수도 194개로 구성되어 있어서 상당히 많은 내용을 다루고 있습니다.

ML 작업 단계별 로 질문과 관련 답변에 필요한 내용들을 정리되어 있어서, 해당 질문이 어떤 작업에 관련된 것인지 를 쉽게 확인할 수 있었습니다. 부록에서 딥러닝 최신 기술인 AttentionLLM 까지도 다루고 있는만큼 머신러닝 및 딥러닝 관련된 모든 내용을 총 망라하고 있었습니다.

  • 2장 ML기본지식
  • 3장 ML코딩
  • 4장 ML 시스템 설계1 - 추천 시스템
  • 5장 ML 시스템 설계2 - 응용
  • 6장 ML 인프라 설계
  • 7장 고급 ML 문제
  • 부록 생성모델 : 노이니 채널 모델에서 LLM 까지


아쉬운 점

책이 얇게 구성되다 보니 아쉬운 부분인데 설명내용 대부분이 서술형 글 로만 구성되어 있었습니다. 신경망의 활성화 함수들을 설명하시오 (61p) 같은 경우에는 딥러닝 활성화 함수 여러가지를 나열하여 설명하고 있는데, 해당 페이지에서 이들의 특징을 비교하는 표 내용이 추가 되었다면 보다 객관적이면서 빠르게 비교 및 이해할수 있어보였습니다. 아마도 이 책 자체가 빠르게 전반적인 내용들을 훝어볼 수 있도록 구성되어 있는만큼 부수적인 내용들을 최소화 되어 보였습니다.

때문에 이 책으로 스터디를 진행하실 분들이라면 해당 질문에 대한 답변내용들을 준비하면서 아래의 예시처럼 표로된 내용들을 찾아보거나, 없으면 스스로 정리를 하면서 진행한다면 많은 도움이 될 수 있을 것입니다.

두번째 아쉬운 부분은 개정판에서는 반영해 주었으면 하는 부분인데 소제목에 해당되는 개념들 만큼은 영어원어를 함께 병행 하여 표시를 해줬으면 하는 것입니다.

아래 사진은 5장 ML 설계 편의 자연어 이해 와 관련된 내용인데 소제목으로 의도분류, 정보추출, 엔터티 해결 이 3가지를 다루고 있습니다. 다른 부분들은 용어의 혼동이 적어서 그나마 다행이었는데 아랫 사진의 엔터티 해결 부분은 책만 읽을 때에는 저의 지식이 부족한 부분도 크겠지만 잘 이해가 되지 않았습니다.

nlp 의도분류, nlp 정보추출 개념은 구글에서 검색하면 관련 내용의 상세개념 설명 문서들과 원어 내용을 바로 찾을 수 있었습니다.

nlp 의도분류 검색결과

반면 nlp 엔터티 해결 을 검색하면 일치하는 단어가 포함된 문서를 찾지 못한채 개체명 인식 관련 문서를 상위에서 찾아줍니다.

자연어 이해관련 질의응답 (211 P)

nlp 의도분류 검색결과

책의 상세 설명에 적혀있는 추출한 개채명을 ~ 매핑하는 프로세스 를 참고하 보면 개체명 인식 NER(Named Entity Recognition) 과 유사한 내용일 것으로 추측은 가능했지만 명확하게 일치하는 단어를 포함하는 문서를 찾지 못하여 발생한 약간의 혼돈의 문제가 있었습니다. 2쇄 또는 개정판 에서는 원서에 적혀진 영어단어를 적어도 소제목 부분 까지는 함께 확인할 수 있다면 책을 읽기만 해도 더 명확한 이해와 해석이 가능하여 더 좋은 책이 되어줄 것으로 기대를 하고 있습니다.


마무리

이러한 특징들을 잘 고려하여 내용들을 진행하신다면, 머신러닝 딥러닝을 공부했거나 현재 공부를 진행중에 있는 분들에게는, 책에 나열된 질문들을 스스로에게 던져보고 해당 질문에 대한 답변들을 스스로 연습하면서, 책 내용과 맞춰보면서 부족했던 부분 보완할 부분 또는 강화할 부분을 발견하는데 훌륭한 길라잡이가 되어 줄 것입니다.

※ 본 리뷰는 IT 현업개발자가, 한빛미디어 책을 제공받아 작성한 서평입니다.

인사이드 머신러닝 인터뷰