Soluci贸n - Crear un DataFrame a partir de una Lista
Pandas
Vista general
Un DataFrame es una poderosa y conveniente estructura de datos creada por la libreria pandas. Se trata de
una estructura en forma de tabla 2D, similar a una hoja de c谩lculo o una tabla SQL. Cada fila representa un
registro individual y cada columna representa un atributo diferente.
Para este problema, nuestro objetivo es convertir una lista 2D en un DataFrame. Esta es una aplicaci贸n com煤n
de la librer铆a pandas para cuando tenemos datos brutos en una lista y queremos convertirlos a un formato m谩s
estructurado y etiquetado para facilitar su an谩lisis.
Conceptos clave:
- Lista 2D: Una lista de listas donde cada lista interna representa un registro de informaci贸n.
DataFrame: Una estructura de datos bidimensional etiquetada en pandas.
Intuici贸n
Veamos el paso a paso para crear un DataFrame con las herramientas proporcionadas por la librer铆a pandas.
- Importar pandas:
import pandas as pd Esta l铆nea importa la libreria pandas y le asigna un alias pd. Pandas proporciona estructuras de datos
r谩pidas, flexibles y expresivas dise帽adas para trabajar con informaci贸n (tabular, multidimensional,
potencialmente heterog茅nea) estructurada.
- Definici贸n de funci贸n:
def createDataframe(student_data: List[List[int]]) -> pd.DataFrame: Esta l铆nea define una funci贸n llamada createDataframe que toma una lista 2D student_data como un argumento
y retorna un DataFrame.
- Utilizar
pd.DataFrame():
pd.DataFrame(student_data) nos permitir谩 transformar nuestra lista 2D en un DataFrame.
Veamos la representaci贸n visual de pd.DataFrame() en el siguiente diagrama:
Se puede ver que el DataFrame resultante tiene cabeceras etiquetadas como 0 y 1. Esto se debe a que todos
los DataFrames se etiquetan y por default crear谩n cabeceras usando valores enteros empezando con 0.
Podemos asignar nombres de columnas personalizadas usando el par谩metro columns. Primero, creamos la lista de
nuestros nombres de columnas en el orden deseado. Enseguida, proporcionamos la lista como un par谩metro al
momento de instanciar la clase pd.DataFrame.
column_names = ["student_id", "age"]
pd.DataFrame(student_data,
columns=column_names) El diagrama subsecuente demuestra el impacto del par谩metro columns:
Implementaci贸n
import pandas as pd
def createDataframe(student_data: List[List[int]]) -> pd.DataFrame:
column_names = ["student_id", "age"]
result_dataframe = pd.DataFrame(
student_data,
columns=column_names
)
return result_dataframe