앎을 경계하기

[가짜연구소3기] Data Engineer

[가짜연구소 3기] 데이터 엔지니어링 25 - Introduction to Flat Files

양갱맨 2021. 9. 4. 21:03

주제

판다스의 기본 개념과 플랫파일을 읽어 데이터프레임으로 로드하는 것을 배웠다.


Pandas

판다스를 사용하면 데이터를 쉽게 로드, 조작할 수 있고 분석과 시각화가 가능하다.

DataFrames

  • 판다스는 데이터프레임 중심이다.
  • 데이터프레임은 행과 열로 구성된 2차원의 데이터 구조이다.
    • 행은 인덱스이고 열은 각 레이블이 지정되어 있다.
  • 수동으로 데이터프레임을 만들 수 있지만, 여러 포맷의 파일을 읽어서 데이터프레임으로 로드하는 것도 가능하다.

Flat Files

  • 간단하고 구성이 쉽다.
  • 서식이 없는 일반적인 텍스트로 저장된다.
  • 선택한 구분 기호로 열 값을 구분한다.
  • 대표적인 예로 CSV 파일은 콤마(,)로 구분된 파일이다.
import pandas as pd

tax_data = pd.read_csv("CSV 파일 경로"
  • sep 파라미터를 사용하여 특정 구분기호를 나타내면 해당 구분기호를 사용해서 데이터를 추출한다.