Python

[ Python ] Pandas(판다스)란?

zzuvely 2022. 4. 28. 18:00

1. Pandas 란? 

: 파이썬에서 데이터 조작 및 분석을 위한 라이브러리다.

2. Pandas Series 란?

: 1차원 데이터를 저장하는 자료구조

Pandas Series 데이터 생성

3. Pandas Dataframe 이란?

: 2차원 데이터를 저장하는 자료구조

딕셔너리를 사용하여 Pandas Dataframe 생성

4. Dataframe의 인덱스 및 컬럼

1) 컬럼 데이터를 가져오는 방법 

 

2) 행과 열의 정보로, 데이터를 가져오는 방법 

 

 

3) 데이터 값 변경과 새로운 컬럼 생성 방법

 

 

4) 인덱스와 컬럼의 삭제 - drop() 함수를 이용하고, axis를 설정해주면 된다.

 

행과 열의 삭제

 

5) 인덱스 또는 컬럼명 변경

5. NaN(Not a Number)의 의미와 처리 방법

1) NaN : 해당 항목에 값이 없음을 뜻한다. isna() 함수를 사용하여 NaN이 얼마나 있는지 파악할 수 있다.

 

2) 처리 방법

- 삭제하는 전략 : dropna() - 행이 삭제된다.

- 특정 값으로 채우는 전략 : df.fillna(0) - Nan을 모두 0으로 채운다.

- NaN 행 위의 값으로 채우는 전략 - fillna(method='ffill', axis = 0)

- NaN 행 위의 값으로 채우는 전략 - fillna(method='bfill', axis = 0)

- NaN 행의 평균값으로 채우는 전략 - fillna(df.mean())

NaN 처리 방법