Development language/Pandas

Pandas-1. Pandas와 데이터 처리 프로세스

DOT-ICD 2022. 9. 28. 13:22
728x90

Pandas

데이터 처리에는 R package를 전통적으로 사용되어오고 있다. Pandas는 이 R package를 단일 라이브러리로 구성하여 파이썬을 통해 데이터 처리를 할 수 있도록 해주는 오픈소스 데이터 분석 라이브러리이다. 

 

데이터 처리 프로세스

우리는 크게 5가지의 단계를 통해 데이터를 처리한다. 

  • 획득
    • 획득은 데이터를 획득하는 것을 의미한다. 데이터를 센서 등을 통해 직접 수집할 수도 있고, 외부에서 만들어진 데이터를 수집해올 수도 있다. 문제는, 이러한 데이터들이 우리가 원하는 용도로 바로 사용할 수 있을 정도로, 잘 다듬어진 경우가 거의 없다는 것이다. 
    • 데이터를 획득하는 대표적인 방법으로는 API를 통해 데이터를 받아오는 방법, 정부나 기업에서 제공하고 있는 데이터를 CSV파일, 엑셀 파일의 형태로 받아오는 방법 등이 있다. 
  • 준비
    • 앞서 살펴보았듯, 우리가 획득한 데이터는 우리가 바로 사용하기에 적합하지 않은 경우가 대부분이다. 다음과 같은 경우에 그렇다고 할 수 있다. 수집단계에서 부터 잘못 수집된 데이터이거나, 데이터의 일부가 유실됐거나, 데이터 포맷이 우리가 사용하기에 적합하지 않거나, 단위가 적절하지 않거나, 상세하지 않거나, 여러 출처의 데이터를 종합해야 하는 경우이다. 
    • 이러한 경우에, 우리는 적합한 형태로 데이터를 잘 다듬어야 한다. 이를 데이터 정돈(Tidying up)이라 한다. 
    • Pandas는 결측치 처리, 데이터 포맷 변환, 데이터셋 병합, 데이터 그룹화 등 여러가지 툴을 제공한다. 
  • 탐색
    • 잘 처리된 데이터를 우리가 주장하는 바를 뒷받침하도록 근거로 가공할 준비를 하는 단계이다. 변수들 사이의 관계를 찾아내고, 분포를 분석하고, 적절한 시각화 등을 통해, 데이터가 근거로 사용할 수 있는지를 분석한다. 
    • 주피터 노트북과 Pandas를 함께 사용한다면, 이 단계를 굉장히 효율적으로 처리할 수 있다. 
  • 모델링
    • 탐색단계를 통해 발굴한 데이터의 특성들을 통해, 데이터가 의미하는 바를 알아내는 과정이다. 
    • 데이터의 특성을 통해 데이터가 가진 의미를 나타내는 구조를 모델(model)이라 한다. 
    • Pandas는 그 자체로 강력한 데이터 모델링 기능을 제공하고, 필요하다면, python 생태계의 또다른 라이브러리를 융합하여 보다 더 전문적인 분석을 할 수도 있다. 
  • 프레젠테이션
    • 모델링을 통해 밝혀낸 데이터의 의미를 다른 사람에게 잘 전달하는 과정이다.
    • 이를 위해서 적당한 그래프와 주석을 통해, 상대방에게 이 데이터가 어떤 의미를 갖고있는지 객관적, 논리적으로 전달하게 된다. 
728x90

'Development language > Pandas' 카테고리의 다른 글

Pandas-2. Pandas Data Structure : Series / DataFrame  (0) 2022.09.28