Pandas

2024. 4. 19. 13:59파이썬

Panda

 

판다스는 데이터 조작 및 분석을 위한 파이썬 라이브러리이다

 

판다스를 사용하는 이유

- 대용량의 데이터를 처리하기 용이

- 프로그래밍을 통한 반복적인 작업 및 자동화에 유리

- 머신러닝, 딥러닝 모델에 적용하기 용이

 

데이터

- 대부분의 데이터는 표 형태로 저장되어 있음

- 표 형태의 데이터를 데이터 프레임이라는 자료구조로 저장이 가능함

- 데이터 프레임은 2차원의 행렬 데이터를 표형태로 저장함

- 각 행과 열은 인덱스를 가지고 있어서 데이터를 쉽게 검색하고 필터링이 가능함

 

Series

- 각 원소는 인덱스와 값으로 이루어짐

- 데이터프레임은 여러개의 시리즈로 이루어져 있다

 

판다스 사용하기

- 판다스 라이브러리를 불러와야한다

import pandas as pd

 

pandas 라이브러리를 불러온다 그리고 pd라는 이름으로 가져온다

 

판다스는 다양한 형태의 데이터 파일을 불러올 수 있음

.csv, .xlsx 파일

 

1. 데이터 불러오기

- read_csv(), read_excel() : 파일로 저장되어 있는 데이터를 불러와서 데이터 프레임으로 저장

df = pd.read_csv('a.csv')

데이터 프레임 형태로 변수 df에 저장한다

 

2. 데이터 일부 확인 

- head(), tail() : 데이터 프레임의 앞 뒤 일부 데이터를 확인하는데 사용

 

3. 데이터 정보 확인

- info() : 데이터의 정보를 확인하는데 사용

 

4. 데이터 프레임에서 특정 컬럼 추출

df["컬럼이름"] : 컬럼 값이 시리즈 형태로 추출됨

df[["컬럼이름1"] , "[컬럼이름2]"] : 이렇게 하면 두개의 컬럼 추출됨

 

데이터 타입 변환

1. astype() : 컬럼의 데이터 타입을 우너하는 타입으로 변환하는데 사용됨

df["컬럼이름"].astype(변환할 타입)

 

Pandas의 메서드는 원본 데이터프레임을 바로 변환하지 않고 변환된 데이터 프레임을 반환한다. 그래서 원본 데이터 프레임을 반환하려면 덮어씌워주는 작업이 필요하다.

df["컬럼이름"] = df["컬럼이름"].astype(int)

 

2. to_numeric() : 숫자 타입으로 변환해준다

pd.to_numeric(df["컬럼이름"])

 

3. to_datetime() : 날짜/시간으로 변환가능한 문자열, 정수, 실수를 시간 타입으로 변환할 때 사용됨

pd.to_datetime(df["컬럼이름"])

 

dt 속성을 사용해서 다양한 작업 수행 가능

df['연'] = df['날짜'].dt.year

 

map : 데이터 프레임의 특정 열 전체를 변환하는데 사용

df["컬럼이름"].map(딕셔너리)

딕셔너리의 key를 받아와 value를 변환해준다

'파이썬' 카테고리의 다른 글

파이썬 모듈  (2) 2024.04.15
파이썬 함수  (0) 2024.04.15
파이썬 자료형 - 문자열, 리스트, 튜플, 딕셔너리  (0) 2024.04.15