프로그래밍/python
Python_판다스(pandas)_(1)
gunnwu
2023. 2. 11. 18:20
1.데이터프레임(DataFrame)
- 데이터프레임 사용은 데이터를 처리,조회,분석하기에 가장 효율적인 방법
- 직접만드는것도 가능, 보통은 csv 파일, 엑셀파일 DB에서 가져옴
- index(행이름), columns(열)로 구성되어 있음
- index는 이름이 없이 (0,1,2,3 ..) 형태 많음 (시계열 데이터에서 날짜가 인덱스인 경우 많음)
- 열 이름이 없는 경우는 거의 없다.. => 이름이 없으면 무슨 데이터인지 어캐 아누
1-1.데이터프레임 사용하기 위한 pandas라이브러리 불러오기 주로 pd라는 별칭을 사용
# 라이브러리 불러오기
import numpy as np #그냥 판다스랑 세트라고 생각하고 무조건 불러오기
import pandas as pd
1-2. 데이터프레임 만들기
-pd.DataFrame() 매소드를 사용해 데이터프레임 생성
#리스트 생성
sample = [[94500, 92100, 92200, 92300],
[96500, 93200, 95900, 94300],
[93400, 91900, 93400, 92100],
[94200, 92100, 94100, 92400],
[94500, 92500, 94300, 92600]]
#인덱스와 컬럼
index_1= ['a', 'b', 'c', '2023-02-10', '2023-02-11']
columns_1 = ['Up', 'Down', 'Open', 'Close']
# 데이터프레임 만들기
df = pd.DataFrame(sample,index_1,columns_1)
# 확인
df.head()
#딕셔너리로 만들기
# key가 columns 이름이 됨
dict_1 = {'Name': ['Kim', 'Lee', 'Park', 'Han'],
'Level': ['Goat', 'Bronze', 'Silver', 'Gold'],
'Score': [100, 30, 60, 80]}
# 데이터프레임 만들기(인덱스 지정함)=> 지정하지 않으면 행 번호가 인덱스
df2 = pd.DataFrame(dict_1,index=['a','b','c','d'])
# 확인
df2.head()
간단한 데이터프레임 생성에 대해 작성해보았다.
다음은 본격적으로 csv파일을 통해 간단한 데이터프레임을 조작하는법을 다뤄본다.