Solución - Eliminar filas duplicadas

Pandas

Vista general

En este problema, tenemos un DataFrame llamado customers que contiene detalles como customer_id, name, e email. El objetivo es eliminar las filas duplicadas en base a la columna email y solo conservar la primera ocurrencia de cualquier email duplicado.

Conceptos clave:

DataFrame: una estructura en forma de tabla 2D, similar a una hoja de cálculo o una tabla SQL. Cada fila representa un registro individual y cada columna un atributo diferente. Es mutable en tamaño y está diseñado para manejar una mezcla de diferentes tipos de datos.
Función drop_duplicates: es un método de las instancias de un DataFrame. Su propósito es eliminar filas duplicadas, y permite especificar un criterio para identificar filas duplicadas.

Argumentos de la función `drop_duplicates`:

subset: Indica el nombre de la columna o secuencia de columnas se deben considerar para identificar filas duplicadas. Si no se especifica, se asume que todas las columnas deben ser tomadas en cuenta.
keep: Este argumento determina cual fila duplicada debe conservarse.
- 'first': (default) Elimina los duplicados, excepto la primera ocurrencia.
- 'last': Elimina los duplicados, excepto la última ocurrencia.
- False: Elimina todas las filas duplicadas.
inplace: Con el valor True, los cambios se realizan directamente en el objeto sin crear un nuevo objeto. Si es False (default), un nuevo objeto sin las filas duplicadas será retornado.

Intuición

Veamos el paso a paso de la solución:

Importar pandas:

import pandas as pd

Esta línea importa la libreria pandas y le asigna un alias llamado pd. pandas es una libreria, escrita en Python, de código abierto para análisis y manipulación de datos, se caracteriza por ser rápida, poderosa, flexible y fácil de utilizar.

Definir la función:

def dropDuplicateEmails(customers: pd.DataFrame) -> pd.DataFrame:

Esta línea define auna nueva función llamada dropDuplicateEmails, la cual toma un DataFrame customers como argumento y retorna otro DataFrame.

Eliminar filas duplicadas en base a la columna email:

customers.drop_duplicates(subset='email',
                          keep='first',
                          inplace=True)

Esta línea utiliza el método drop_duplicates del DataFrame customers.

subset='email': esto indica que las filas duplicadas son aquellas que comparten el mismo email.
keep='first': esto indica que solo queremos conservar la primera ocurrencia de cualquier email duplicado.
inplace=True: esto significa que los cambios se realizarán directamente en el DataFrame (customers) sin retornar un nuevo DataFrame.

Regresar el DataFrame modificado:

return customers

Finalmente, regresamos el DataFrame modificado sin las finas duplicadas.

Usar la solución

Al usar la función proporcionada, podemos limpiar la información en nuestro DataFrame customers y asegurarnos que los email son únicos, ayudando a mantener la integridad de los datos. Si dos clientes tienen la misma dirección de correo electrónico, solo la primera occurrencia será retenida en el DataFrame final.

Visualización de la función dropDuplicateEmails

Cuando se pasa este DataFrame a la función:

customer_id	name	email
1	Ella	emily@example.com
2	David	michael@example.com
3	Zachary	sarah@example.com
4	Alice	john@example.com
5	Finn	john@example.com
6	Violet	alice@example.com

Retornará:

customer_id	name	email
1	Ella	emily@example.com
2	David	michael@example.com
3	Zachary	sarah@example.com
4	Alice	john@example.com
6	Violet	alice@example.com

Implementación

import pandas as pd


def dropDuplicateEmails(customers: pd.DataFrame) -> pd.DataFrame:
    customers.drop_duplicates(subset='email',
                              keep='first',
                              inplace=True)
    return customers

Nota: al usar inplace=True se modifica el DataFrame original. En caso de que se requiera conservar el DataFrame sin cambios y obtener uno nuevo sin las filas duplicadas, debemos usar inplace=False y asignar el resultado a una nueva variable.