취미가 좋다

[pandas] 8. 중복 데이터 삭제하기 본문

Data Engineer/pandas

[pandas] 8. 중복 데이터 삭제하기

benlee73 2021. 9. 21. 18:46

중복 데이터 삭제하기

duplicated() 함수로 각 인덱스 별로 중복 여부를 알 수 있다.

drop_duplicates() 함수로 중복된 데이터를 쉽게 삭제할 수 있다.

중복의 기준 변경

중복의 기준을 인자를 통해 새로 설정할 수 있다.

아래는 중복의 기준을 name으로 하여 다른 데이터가 다르더라도 이름이 같으면 중복처리하여 삭제한다.

keep 인자를 통해 앞의 데이터와 뒤의 데이터 중 어느 것을 살릴 것인지 결정할 수 있다.

'first', 'last' 중 살릴 것을 선택해서 넣으면 되고 default는 'first'이다.


https://youtu.be/p6qEgqjv-H4

 

Comments