728x90

Development language/Pandas 2

Pandas-2. Pandas Data Structure : Series / DataFrame

Pandas는 기본 데이터 구조로 Series와 DataFrame이 존재한다. Series Series는 Pandas의 기본 데이터 구조로, Numpy 라이브러리의 배열이나, 기존 C/CPP에서의 배열과 비슷한 구조이지만, 다양한 형태의 인덱스를 갖는 다는 점에서 다르다. 0에서 부터 시작하여 순차적으로 1씩 인덱스가 증가하는 제로베이스(zero-based) 인덱스 뿐만 아니라, 날짜, 이름 등 여러가지 형태의 인덱스를 만들어낼 수 있다. 파이썬의 딕셔너리와 리스트가 합쳐진 형태라고 생각해볼 수 있다. DataFrame Series의 경우, 각 인덱스 레이블 당 하나의 값만이 매칭되는 형태이므로, 다양한 자료를 동시에 한 인덱스로 지정할 수 없다. 이를 보완하는 자료 구조가 DataFrame이다. Dat..

Pandas-1. Pandas와 데이터 처리 프로세스

Pandas 데이터 처리에는 R package를 전통적으로 사용되어오고 있다. Pandas는 이 R package를 단일 라이브러리로 구성하여 파이썬을 통해 데이터 처리를 할 수 있도록 해주는 오픈소스 데이터 분석 라이브러리이다. 데이터 처리 프로세스 우리는 크게 5가지의 단계를 통해 데이터를 처리한다. 획득 획득은 데이터를 획득하는 것을 의미한다. 데이터를 센서 등을 통해 직접 수집할 수도 있고, 외부에서 만들어진 데이터를 수집해올 수도 있다. 문제는, 이러한 데이터들이 우리가 원하는 용도로 바로 사용할 수 있을 정도로, 잘 다듬어진 경우가 거의 없다는 것이다. 데이터를 획득하는 대표적인 방법으로는 API를 통해 데이터를 받아오는 방법, 정부나 기업에서 제공하고 있는 데이터를 CSV파일, 엑셀 파일의 ..