Python_판다스(pandas)

프로그래밍/python

Python_판다스(pandas)_(1)

gunnwu 2023. 2. 11. 18:20

1.데이터프레임(DataFrame)

데이터프레임 사용은 데이터를 처리,조회,분석하기에 가장 효율적인 방법
직접만드는것도 가능, 보통은 csv 파일, 엑셀파일 DB에서 가져옴
index(행이름), columns(열)로 구성되어 있음
index는 이름이 없이 (0,1,2,3 ..) 형태 많음 (시계열 데이터에서 날짜가 인덱스인 경우 많음)
열 이름이 없는 경우는 거의 없다.. => 이름이 없으면 무슨 데이터인지 어캐 아누

1-1.데이터프레임 사용하기 위한 pandas라이브러리 불러오기 주로 pd라는 별칭을 사용

# 라이브러리 불러오기
import numpy as np #그냥 판다스랑 세트라고 생각하고 무조건 불러오기
import pandas as pd

1-2. 데이터프레임 만들기

-pd.DataFrame() 매소드를 사용해 데이터프레임 생성

#리스트 생성
sample = [[94500, 92100, 92200, 92300],
         [96500, 93200, 95900, 94300],
         [93400, 91900, 93400, 92100],
         [94200, 92100, 94100, 92400],
         [94500, 92500, 94300, 92600]]
         
#인덱스와 컬럼         
index_1= ['a', 'b', 'c', '2023-02-10', '2023-02-11']
columns_1 = ['Up', 'Down', 'Open', 'Close']


# 데이터프레임 만들기
df = pd.DataFrame(sample,index_1,columns_1)

# 확인
df.head()

#딕셔너리로 만들기
# key가 columns 이름이 됨
dict_1 = {'Name': ['Kim', 'Lee', 'Park', 'Han'],
        'Level': ['Goat', 'Bronze', 'Silver', 'Gold'],
        'Score': [100, 30, 60, 80]}

# 데이터프레임 만들기(인덱스 지정함)=> 지정하지 않으면 행 번호가 인덱스  
df2 = pd.DataFrame(dict_1,index=['a','b','c','d'])

# 확인
df2.head()

간단한 데이터프레임 생성에 대해 작성해보았다.

다음은 본격적으로 csv파일을 통해 간단한 데이터프레임을 조작하는법을 다뤄본다.