주제
열을 부울로 형 변환하고 사용자 정의 True/False 값 설정하는 방법, 부울 변환 시 고려사항에 대해서 배웠다.
이전까지는 주로 문자열, 숫자형 데이터를 다뤘다. 이번에는 부울 타입의 데이터에 대해서 다룬다.
부울 데이터
- True/False 데이터
- 필터링 작업에 편리함
판다스에서 부울 데이터를 어떻게 해석할까?
위 엑셀파일을 판다스에서 읽고 타입을 확인하면 다음과 같다.
부울 타입으로 해석하지 않는다.
숫자로 해석하는 경우 True = 1, False = 0으로 매핑된다.
read_excel
에 dtype 인수로 부울 컬럼을 지정하는 dictionary를 전달할 수 있다.
그러나 이렇게 타입을 설정하면 발생하는 문제가 있다.
판다스에서 0과 1이 False, True임은 인식하지만 애매한 것들은 모두 True로 코딩된다.
이러한 문제를 해결하기 위해 true_values
, false_values
인수를 설정할 수 있다.
부울 고려사항
- 열을 부울로 형변환 할 때, NA 값도 고려해야한다.
- 잘못된 값이 True로 코딩되지 않는지
- 다른 타입으로 대체 표현이 가능한지도 따져야 한다.
Uploaded by Notion2Tistory v1.1.0