Development language/Pandas

Pandas-2. Pandas Data Structure : Series / DataFrame

DOT-ICD 2022. 9. 28. 14:01
728x90

Pandas는 기본 데이터 구조로 Series와 DataFrame이 존재한다.

 

Series

Series는 Pandas의 기본 데이터 구조로, Numpy 라이브러리의 배열이나, 기존 C/CPP에서의 배열과 비슷한 구조이지만, 다양한 형태의 인덱스를 갖는 다는 점에서 다르다.

0에서 부터 시작하여 순차적으로 1씩 인덱스가 증가하는 제로베이스(zero-based) 인덱스 뿐만 아니라, 날짜, 이름 등 여러가지 형태의 인덱스를 만들어낼 수 있다.

파이썬의 딕셔너리와 리스트가 합쳐진 형태라고 생각해볼 수 있다.  

DataFrame

Series의 경우, 각 인덱스 레이블 당 하나의 값만이 매칭되는 형태이므로, 다양한 자료를 동시에 한 인덱스로 지정할 수 없다. 이를 보완하는 자료 구조가 DataFrame이다. 

DataFrame은 한 인덱스 레이블에 복수의 데이터를 가질 수 있도록 하며, 각 종류의 데이터가 담긴 Series가 인덱스 레이블을 기준으로 나열되어있는 형태라고 할 수 있다. 

DataFrame의 각 열은 Series이며, 각각의 열은 이름을 가질 수 있다. (데이터 항목의 이름) 

728x90

'Development language > Pandas' 카테고리의 다른 글

Pandas-1. Pandas와 데이터 처리 프로세스  (0) 2022.09.28