리뷰/IT_책소개 / / 2022. 10. 3. 00:07

판다스 인 액션 (Pandas in Action) : 한빛미디어

반응형

[Pandas in Action (판다스 인 액션)]

  보리스 패스캐버 지음

  시진 옮김

 

본 책은 Python 라이브러리 중에 하나인 Pandas 에 대해 소개하고 예제를 통해 쉽게 접근할 수 있도록 해주는 책 입니다.

Pandas 는 데이터 조작 및 분석을 위한 Python 프로그래밍 언어 용으로 개발된 소프트웨어 라이브러리 입니다.

무료로 이용 가능한 라이브러리 입니다. (New BSD 라이센스)

Pandas 라는 이름은 한 개인에 대해 여러 기간동안 관찰 한다는 데이터 세트에 대한 계량 경제학 용어인 "패널 데이터"라는 요엉에서 파생되었으며, "Python 데이터 분석"이라는 문구 자체에서 가져온 것이라고 합니다.(위키백과 인용)

 

Chapter 1. 판다스 소개 에서도 Pandas 는 Python 프로그래밍 언어를 기반으로 구축된 데이터 분석용 라이브러리로 정렬, 필터링, 정리, 중복 제거, 집계, 피벗 등의 데이터 조작 작업을 위한 도구 모음으로 소개하고 있습니다.

본 책은 Python 프로그래밍을 해보았다면 좀 더 쉽게 학습할 수 있지만, Python 프로그래밍을 접하지 않았더라도 책 예제를 따라하다 보면 쉽게 학습할 수 있도록 구성되어 있습니다.

책에서는 스프레드시트 소프트웨어 또는 다른 데이터 분석 도구를 중급자 수준으로 다뤄본 경험이 있는 데이터 분석가를 대상으로 구성되어있다고 하지만 책을 공부하다 보면 실제 데이터 분석을 통해 어떤것을 알고자 하는가 까지는 아니더라도 이러한 형태로 데이터 분석이 가능 하고, 이런 데이터를 이용하면 어떠한 결과를 알 수 있구나 정도는 알 수 있으며, 데이터 분석이 이러한 것이구나 정도는 알 수 있습니다.

데이터 분석이 필요한 여러 분야에 적용 가능하기에 학습해볼 가치는 충분히 있습니다.

 

책 예제는 아래 경로에 있습니다. (책 12p)

https://github.com/paskhaver/pandas-in-action

 

GitHub - paskhaver/pandas-in-action: Complete source code (datasets and Jupyter Notebooks) for Pandas In Action

Complete source code (datasets and Jupyter Notebooks) for Pandas In Action - GitHub - paskhaver/pandas-in-action: Complete source code (datasets and Jupyter Notebooks) for Pandas In Action

github.com

 

Pandas 공식 문서,

https://pandas.pydata.org/docs/

 

pandas documentation — pandas 1.5.0 documentation

The reference guide contains a detailed description of the pandas API. The reference describes how the methods work and which parameters can be used. It assumes that you have an understanding of the key concepts.

pandas.pydata.org

책은 크게 두 개의 Part 와 부록으로 구성 되어 있습니다.

Part 1 은,  Chapter 1 ~ 5 까지 이며,

   Pandas 의 소개 및 기본 사용법 그리고 객체들에 대한 객체 (DataFrame, Series) 에 대해 학습할 수 있으며,

Part 2 는,  Chapter 6 ~ 14 까지 이며,

   Part1 에서 학습한 내용을 기반으로 하여 실제 데이터 분석을 해보면서 학습할 수 있습니다.

부록 Part 는, Appendix A ~ E 까지 이며,

   시험을 위한 툴의 설치 및 환경 설정, Python 문법 기초, 넘파이 속성 과정, faker로 가짜 데이터 생성하기,

   정규 표현식에 대해서 설명 하고 있습니다.

 

책에서는 Python 코딩 환경으로 Appendix A 에서 아나콘다 (Anaconda) 주피터 노트북을 이용하여 구성하고 있습니다.

https://www.anaconda.com/products/distribution

 

Anaconda | Anaconda Distribution

Anaconda's open-source Distribution is the easiest way to perform Python/R data science and machine learning on a single machine.

www.anaconda.com

Appendix A 에서 설치 및 환경 설정에 대해 자세하게 설명하고 있습니다.

 

각 Chapter 시작시에, "이 장의 내용" 블럭을 두어 학습할 내용에 대해 설명하고 있으며, Chapter 마지막에 "핵심 요약" 블럭을 두어 학습한 내용 중 핵심 내용에 대해 정리 해줍니다. 

 

 

책은 주로 예제 위주로 구성 되어 있습니다.

실제 코딩 하면서 학습 하여도 되지만, 예제에 대한 결과도 포함되어 있기에 설명 상에서의 예제 부분은 책 내용 만으로도 이해할 수 있습니다. 하지만, 실행 해보며 Python 및 Pandas 코딩에 익숙해 지기 위해 직접 예제들을 코딩 해보시길 추천 합니다.

 

각 Chapter 마다 코딩 챌린지라는 섹션을 두어 학습한 내용에 대해 문제를 풀면서 학습한 부분에 대해 이해하고 있는지 확인 할 수 있도록 제공하고 있습니다.

 

[결론]

데이터 과학, 데이터 분석 이라는 분야가 오래된 분야 이지만 최근 들어서 많이 이슈화 되고 있는 것 같습니다. 이미 데이터 분석 분야에 일하고 계신 분들은 Pandas 라이브러리에 대해서 많이 접했을 수 있지만 그 외 분야에 계신 분들은 생소한 라이브러리 일 것입니다.

실제, 데이터 분석 이라는 분야 자체도 생소할 수 있는데, 본 책을 통하여 데이터 분석이 어떠한 것이고 어떠한 부분들이 있는지 그리고 Pandas 라이브러리를 이용한 데이터 분석 방법에 대해 맛 보기에 좋은 책인 것 같습니다. 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
반응형
  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유
  • 카카오스토리 공유