728x90
Pandas는 기본 데이터 구조로 Series와 DataFrame이 존재한다.
Series
Series는 Pandas의 기본 데이터 구조로, Numpy 라이브러리의 배열이나, 기존 C/CPP에서의 배열과 비슷한 구조이지만, 다양한 형태의 인덱스를 갖는 다는 점에서 다르다.
0에서 부터 시작하여 순차적으로 1씩 인덱스가 증가하는 제로베이스(zero-based) 인덱스 뿐만 아니라, 날짜, 이름 등 여러가지 형태의 인덱스를 만들어낼 수 있다.
파이썬의 딕셔너리와 리스트가 합쳐진 형태라고 생각해볼 수 있다.
DataFrame
Series의 경우, 각 인덱스 레이블 당 하나의 값만이 매칭되는 형태이므로, 다양한 자료를 동시에 한 인덱스로 지정할 수 없다. 이를 보완하는 자료 구조가 DataFrame이다.
DataFrame은 한 인덱스 레이블에 복수의 데이터를 가질 수 있도록 하며, 각 종류의 데이터가 담긴 Series가 인덱스 레이블을 기준으로 나열되어있는 형태라고 할 수 있다.
DataFrame의 각 열은 Series이며, 각각의 열은 이름을 가질 수 있다. (데이터 항목의 이름)
728x90
'Development language > Pandas' 카테고리의 다른 글
Pandas-1. Pandas와 데이터 처리 프로세스 (0) | 2022.09.28 |
---|