2024. 4. 19. 13:59ㆍ파이썬
판다스는 데이터 조작 및 분석을 위한 파이썬 라이브러리이다
판다스를 사용하는 이유
- 대용량의 데이터를 처리하기 용이
- 프로그래밍을 통한 반복적인 작업 및 자동화에 유리
- 머신러닝, 딥러닝 모델에 적용하기 용이
데이터
- 대부분의 데이터는 표 형태로 저장되어 있음
- 표 형태의 데이터를 데이터 프레임이라는 자료구조로 저장이 가능함
- 데이터 프레임은 2차원의 행렬 데이터를 표형태로 저장함
- 각 행과 열은 인덱스를 가지고 있어서 데이터를 쉽게 검색하고 필터링이 가능함
Series
- 각 원소는 인덱스와 값으로 이루어짐
- 데이터프레임은 여러개의 시리즈로 이루어져 있다
판다스 사용하기
- 판다스 라이브러리를 불러와야한다
import pandas as pd
pandas 라이브러리를 불러온다 그리고 pd라는 이름으로 가져온다
판다스는 다양한 형태의 데이터 파일을 불러올 수 있음
.csv, .xlsx 파일
1. 데이터 불러오기
- read_csv(), read_excel() : 파일로 저장되어 있는 데이터를 불러와서 데이터 프레임으로 저장
df = pd.read_csv('a.csv')
데이터 프레임 형태로 변수 df에 저장한다
2. 데이터 일부 확인
- head(), tail() : 데이터 프레임의 앞 뒤 일부 데이터를 확인하는데 사용
3. 데이터 정보 확인
- info() : 데이터의 정보를 확인하는데 사용
4. 데이터 프레임에서 특정 컬럼 추출
df["컬럼이름"] : 컬럼 값이 시리즈 형태로 추출됨
df[["컬럼이름1"] , "[컬럼이름2]"] : 이렇게 하면 두개의 컬럼 추출됨
데이터 타입 변환
1. astype() : 컬럼의 데이터 타입을 우너하는 타입으로 변환하는데 사용됨
df["컬럼이름"].astype(변환할 타입)
Pandas의 메서드는 원본 데이터프레임을 바로 변환하지 않고 변환된 데이터 프레임을 반환한다. 그래서 원본 데이터 프레임을 반환하려면 덮어씌워주는 작업이 필요하다.
df["컬럼이름"] = df["컬럼이름"].astype(int)
2. to_numeric() : 숫자 타입으로 변환해준다
pd.to_numeric(df["컬럼이름"])
3. to_datetime() : 날짜/시간으로 변환가능한 문자열, 정수, 실수를 시간 타입으로 변환할 때 사용됨
pd.to_datetime(df["컬럼이름"])
dt 속성을 사용해서 다양한 작업 수행 가능
df['연'] = df['날짜'].dt.year
map : 데이터 프레임의 특정 열 전체를 변환하는데 사용
df["컬럼이름"].map(딕셔너리)
딕셔너리의 key를 받아와 value를 변환해준다
'파이썬' 카테고리의 다른 글
파이썬 모듈 (2) | 2024.04.15 |
---|---|
파이썬 함수 (0) | 2024.04.15 |
파이썬 자료형 - 문자열, 리스트, 튜플, 딕셔너리 (0) | 2024.04.15 |