앎을 경계하기

[가짜연구소3기] Data Engineer

[가짜연구소 3기] 데이터 엔지니어링 30 - Modifying imports : true/false data

양갱맨 2021. 9. 4. 21:12

주제

열을 부울로 형 변환하고 사용자 정의 True/False 값 설정하는 방법, 부울 변환 시 고려사항에 대해서 배웠다.


이전까지는 주로 문자열, 숫자형 데이터를 다뤘다. 이번에는 부울 타입의 데이터에 대해서 다룬다.

부울 데이터

  • True/False 데이터
  • 필터링 작업에 편리함

판다스에서 부울 데이터를 어떻게 해석할까?

위 엑셀파일을 판다스에서 읽고 타입을 확인하면 다음과 같다.

부울 타입으로 해석하지 않는다.

숫자로 해석하는 경우 True = 1, False = 0으로 매핑된다.

read_excel 에 dtype 인수로 부울 컬럼을 지정하는 dictionary를 전달할 수 있다.

그러나 이렇게 타입을 설정하면 발생하는 문제가 있다.

판다스에서 0과 1이 False, True임은 인식하지만 애매한 것들은 모두 True로 코딩된다.

이러한 문제를 해결하기 위해 true_values, false_values 인수를 설정할 수 있다.

부울 고려사항

  • 열을 부울로 형변환 할 때, NA 값도 고려해야한다.
  • 잘못된 값이 True로 코딩되지 않는지
  • 다른 타입으로 대체 표현이 가능한지도 따져야 한다.