Real-World Data Fixes With Python Flashcards by Esteban Molina

¿Qué define el parámetro columns en pd.pivot_table()?

Respuesta: La columna cuyos valores se usarán para crear las nuevas columnas de la tabla pivoteada.
Explicación: Cada valor único en esta columna se convertirá en un nuevo encabezado de columna.

How well did you know this?

Not at all

Perfectly

¿Qué resultado se obtiene al usar .dt.is_leap_year?

Respuesta: Un valor booleano (True o False) que indica si el año es bisiesto.
Explicación: Esta propiedad del accesor .dt verifica si el año de cada fecha en la Series es un año bisiesto.

How well did you know this?

Not at all

Perfectly

¿Qué información proporciona .dt.day_of_year?

Respuesta: El día del año (un número entre 1 y 366).
Explicación: Esta propiedad del accesor .dt calcula y devuelve el número ordinal del día dentro del año para cada fecha.

How well did you know this?

Not at all

Perfectly

¿Para qué sirve fill_value en pd.pivot_table()?

Respuesta: Para reemplazar los valores NaN (nulos) que resulten en la tabla pivoteada.
Explicación: Después de pivotear, algunas celdas pueden quedar vacías (NaN). fill_value permite rellenarlas con un valor específico, como 0 o una cadena vacía.

How well did you know this?

Not at all

Perfectly

¿Cuál es la función principal de pd.to_datetime()?

El texto indica que pd.to_datetime() es la función principal utilizada en Pandas para convertir un valor escalar o una Series completa al tipo de dato datetime.

How well did you know this?

Not at all

Perfectly

¿Cuál es el primer paso en el flujo típico de análisis mencionado?

Respuesta: Usar melt() para normalizar datos.
Explicación: Se transforma la tabla de un formato ancho a uno largo para facilitar las operaciones posteriores.

How well did you know this?

Not at all

Perfectly

¿Cuál es la función del parámetro id_vars en pd.melt()?

Las columnas listadas en id_vars no serán ‘derretidas’ y permanecerán como columnas en el DataFrame resultante.

How well did you know this?

Not at all

Perfectly

¿Cuál es el propósito del método .dt.strftime()?

Respuesta: Formatear las fechas como texto (strings) según un formato específico.
Explicación: Este método permite convertir objetos datetime a cadenas de texto personalizadas, por ejemplo, para cambiar ‘2024-03-12’ a ‘12 de Marzo de 2024’.

How well did you know this?

Not at all

Perfectly

¿Cuál es el tercer paso en el flujo típico de análisis mencionado?

Respuesta: Usar pivot() para reconstruir en formato tabla o de reporte.
Explicación: Después del análisis, pivot() permite volver a presentar los datos en un formato ancho, que suele ser más legible para los reportes.

How well did you know this?

Not at all

Perfectly

En el tip para limpiar encabezados de pivot_table, ¿qué hace reset_index()?

Respuesta: Pasa la columna del índice (en el ejemplo, ‘Product’) al encabezado principal, convirtiéndola en una columna regular.
Explicación: Esto facilita el manejo posterior del DataFrame, ya que el índice se convierte en una columna de datos.

How well did you know this?

Not at all

Perfectly

¿Qué es pd.Grouper() y para qué se usa?

Respuesta: Es una clase que se usa dentro de groupby() para realizar agrupaciones por frecuencia temporal.
Explicación: pd.Grouper permite especificar una columna de fecha (key) y una frecuencia de tiempo (freq) como ‘Q’ (trimestre), ‘M’ (mes) o ‘Y’ (año) para agrupar los datos.

How well did you know this?

Not at all

Perfectly

¿Cuál es el alias de frecuencia (freq) para agrupar por trimestre usando pd.Grouper?

Respuesta: ‘Q’.
Explicación: freq=’Q’ le indica a pd.Grouper que debe agrupar las fechas en bloques trimestrales.

How well did you know this?

Not at all

Perfectly

¿Qué transformación realiza melt() en un DataFrame?

Respuesta: Convierte un DataFrame ancho en uno largo.
Explicación: La función toma un DataFrame con muchas columnas de valores y las transforma para que esas columnas pasen a ser filas.

How well did you know this?

Not at all

Perfectly

¿Qué función es la opuesta a pivot()?

Respuesta: melt().
Explicación: El texto indica explícitamente que melt() es el opuesto de pivot, ya que transforma los datos de un formato ancho a uno largo, mientras que pivot hace lo contrario.

How well did you know this?

Not at all

Perfectly

¿Para qué sirve el parámetro value_vars en pd.melt()?

Respuesta: Para indicar las columnas que se derretirán en dos nuevas columnas (variable y valor).
Explicación: Estas son las columnas que se transformarán de un formato ancho a uno largo.

How well did you know this?

Not at all

Perfectly

¿Qué ocurre si el parámetro value_vars no se especifica en pd.melt()?

Study These Flashcards

Respuesta: Se usarán todas las columnas excepto las especificadas en id_vars.
Explicación: Este es el comportamiento por defecto de la función cuando no se le indica explícitamente qué columnas derretir.

¿Cómo se pueden aplicar múltiples funciones de agregación a una agrupación?

Study These Flashcards

Respuesta: Usando el método .agg() con una lista de funciones, por ejemplo: .agg([‘sum’,’mean’]).
Explicación: El método .agg() permite aplicar varias funciones de agregación a la vez, devolviendo un DataFrame con los resultados de cada función como una columna separada.

¿Para qué se utiliza reset_index(drop=True)?

Study These Flashcards

Respuesta: Para resetear el índice del DataFrame y descartar el índice antiguo sin añadirlo como una nueva columna.
Explicación: Mientras que reset_index() convierte el índice actual en una columna, la opción drop=True lo elimina por completo.

¿Qué ventajas tiene pd.Grouper() frente a agrupar con .dt?

Study These Flashcards

Respuesta: pd.Grouper() ofrece una forma más directa y legible para agrupar por frecuencias de tiempo complejas (como trimestres, semanas, etc.) directamente dentro de la sintaxis de groupby.
Explicación: Mientras que con .dt se pueden extraer componentes como año o mes, pd.Grouper está diseñado específicamente para la agrupación por intervalos de tiempo (freq), lo que simplifica el código y lo hace más explícito.

¿Para qué sirve el accesor .dt en una Series de Pandas?

Study These Flashcards

Respuesta: Permite acceder a propiedades y métodos de fechas de la Series.
Explicación: Una vez que una columna está en formato datetime, el accesor .dt se utiliza para extraer componentes de la fecha, como el año, mes, día, trimestre, etc.

¿Cuándo se debe usar pd.pivot_table() en lugar de pd.pivot()?

Study These Flashcards

Respuesta: Cuando hay filas duplicadas que necesitan ser agregadas.
Explicación: A diferencia de pivot(), pivot_table() puede manejar datos duplicados aplicando una función de agregación (como suma o promedio) para consolidar los valores.

¿Cuál es la relación conceptual entre melt() y pivot()?

Study These Flashcards

Respuesta: melt() pasa de ancho a largo, mientras que pivot() pasa de largo a ancho.
Explicación: Son operaciones inversas que permiten reestructurar la forma de un DataFrame para diferentes propósitos de análisis o reporte.

¿Qué operación realiza pd.pivot()?

Study These Flashcards

Respuesta: Transforma un DataFrame de formato largo a ancho.
Explicación: pd.pivot() reorganiza los datos creando nuevas columnas a partir de los valores de una columna existente.

¿Cuál es la función de agregación (aggfunc) por defecto en pd.pivot_table()?

Study These Flashcards

Respuesta: mean (promedio).
Explicación: Si no se especifica otra función, pivot_table calculará el promedio de los valores para cada celda.

¿Qué define el parámetro index en pd.pivot_table()?

Respuesta: La columna que se convertirá en el nuevo índice (filas) de la tabla pivoteada. Explicación: Los valores únicos de esta columna se usarán como etiquetas para las filas.

¿Cómo eliminarías todas las filas que contienen al menos un valor nulo?

Respuesta: df.dropna(axis=0, how='any') Explicación: axis=0 especifica que se deben eliminar filas, y how='any' indica que se elimine la fila si al menos un valor en ella es nulo.

¿Cómo agruparías un DataFrame df por año basándote en una columna 'Date' para sumar los 'Revenue'?

Respuesta: df.groupby(df['Date'].dt.year)['Revenue'].sum() Explicación: Se utiliza el accesor .dt.year dentro del groupby para extraer el año de la columna de fechas y agrupar los datos en función de este.

¿Cuál es la sintaxis básica para una agrupación en Pandas?

Respuesta: df.groupby('col')['val'].sum() Explicación: Esta sintaxis agrupa el DataFrame df por la columna 'col', selecciona la columna 'val' y calcula la suma para cada grupo.

¿Cómo ordenarías una columna 'col' de un DataFrame df en orden descendente?

Respuesta: df['col'].sort_values(ascending=False) Explicación: El método sort_values() ordena los valores de una Series, y el parámetro ascending=False especifica que el orden debe ser de mayor a menor.

¿Qué tres tipos de gráficos mencionados en el texto requieren datos en formato de matriz (pivotado)?

Respuesta: sns.heatmap(), sns.clustermap() y plt.contour() o plt.contourf(). Explicación: Estos gráficos están diseñados para visualizar relaciones en una matriz de datos, donde los ejes X e Y representan categorías y las celdas contienen valores, un formato que se obtiene con pivot o pivot_table.

¿Qué devuelve la propiedad .dt.quarter?

Respuesta: El trimestre del año (un número entre 1 y 4). Explicación: Es una propiedad del accesor .dt que extrae el trimestre correspondiente a cada fecha en la Series.

En pd.pivot_table(), ¿qué define el parámetro values?

Respuesta: La columna (o columnas) cuyos valores se agregarán y se mostrarán en las celdas de la tabla pivoteada. Explicación: Es la columna que contiene los datos numéricos sobre los que se realizarán los cálculos.

¿Cuál es el segundo paso en el flujo típico de análisis mencionado?

Respuesta: Hacer análisis o agregación con groupby(). Explicación: Una vez los datos están en formato largo, se pueden agrupar fácilmente por las columnas de identificadores y variables para realizar cálculos.

¿Cómo se renombraría una columna llamada 'old' a 'new' en un DataFrame df?

Respuesta: df.rename(columns={'old':'new'}) Explicación: El método rename() con el argumento columns y un diccionario permite cambiar el nombre de una o más columnas.

En el ejemplo básico, ¿qué columnas se especificaron como id_vars?

Respuesta: ["Campaign"]. Explicación: Esto significa que la columna 'Campaign' se mantuvo fija durante la transformación, actuando como el identificador de cada campaña.

¿Cómo interpreta pd.to_datetime() la fecha '12/03/2024' si se especifica dayfirst=True?

Respuesta: Como el 12 de marzo de 2024. Explicación: El parámetro dayfirst=True le indica a la función que el primer número en una fecha ambigua debe ser tratado como el día, no como el mes.

¿Qué devuelve el método .dt.isocalendar()?

Respuesta: Devuelve un DataFrame con el año ISO, la semana del año y el día de la semana. Explicación: El método .dt.isocalendar() proporciona información de calendario basada en el estándar ISO 8601, que es útil en ciertos análisis de negocio.

¿Qué hace el parámetro format='mixed' en pd.to_datetime()?

Respuesta: Permite que Pandas infiera múltiples formatos de fecha en los datos. Explicación: Cuando los datos de fecha no son consistentes, format='mixed' le indica a Pandas que intente deducir el formato correcto para cada valor individualmente.

Real-World Data Fixes With Python Flashcards

(38 cards)