Visualización de datos con el paquete Caret R
El paquete caret en R está diseñado para agilizar el proceso de aprendizaje automático aplicado.
Una parte clave de la resolución de problemas de datos es comprender los datos que tiene disponibles. Puede hacer esto muy rápidamente resumiendo los atributos con visualizaciones de datos.
Hay muchos paquetes y funciones para resumir datos en R y puede resultar abrumador. A los efectos del aprendizaje automático aplicado, el paquete caret proporciona algunas herramientas clave que pueden brindarle un resumen rápido de sus datos.
En esta publicación descubrirá las herramientas de visualización de datos disponibles en el paquete caret R.
Pon en marcha tu proyecto con mi nuevo libro Machine Learning Mastery With R, que incluye tutoriales paso a paso y los archivos de código fuente de R para todos los ejemplos.
Empecemos.
Paquete Caret
El paquete caret se utiliza principalmente para optimizar el entrenamiento de modelos, estimar el rendimiento y el ajuste del modelo. También cuenta con una serie de prácticas herramientas de visualización de datos que pueden darle rápidamente una idea de los datos con los que está trabajando.
En esta publicación veremos las siguientes 4 visualizaciones de datos:
- Matriz de diagrama de dispersión: para comparar la distribución de atributos de valor real en diagramas de pares.
- Gráficos de densidad: para comparar la función de densidad de probabilidad de los atributos.
- Gráficos de caja y bigotes: para resumir y ahorrar la distribución de atributos
Cada ejemplo es independiente para que puedas copiarlo y pegarlo en tu propio proyecto y adaptarlo a tus necesidades. Todos los ejemplos utilizarán el conjunto de datos de flores de iris, que viene con R. Este conjunto de datos de clasificación proporciona 150 observaciones para tres especies de flores de iris y sus medidas de pétalos y sépalos en centímetros.
Matriz de diagrama de dispersión
Una matriz de diagrama de dispersión muestra una cuadrícula de diagramas de dispersión donde cada atributo se traza frente a todos los demás atributos. Puede leerse por columna o fila, y cada gráfico aparece dos veces, lo que le permite considerar las relaciones espaciales desde dos perspectivas.
Una mejora de simplemente trazar los diagramas de dispersión es incluir más información de clase. Esto se hace comúnmente coloreando puntos en cada diagrama de dispersión según su valor de clase.
El siguiente ejemplo muestra una matriz de diagrama de dispersión para el conjunto de datos de iris, con diagramas de dispersión por pares para los cuatro atributos y puntos en los diagramas de dispersión coloreados por el atributo de clase.
Matriz de diagrama de dispersión en el paquete caret r:
# load the library
library(caret)
# load the data
data(iris)
# pair-wise plots of all 4 attributes, dots colored by class
featurePlot(x=iris[,1:4], y=iris[,5], plot="pairs", auto.key=list(columns=3))
Gráficos de densidad
Los gráficos de estimación de densidad (para abreviar, gráficos de densidad) resumen la distribución de los datos. Como un histograma, la relación entre los valores de los atributos y el número de observaciones se resume, pero en lugar de una frecuencia, la relación se resume como una función de densidad de probabilidad continua (PDF). Esta es la probabilidad de que una observación dada tenga un valor dado.
Los gráficos de densidad se pueden mejorar aún más separando cada atributo por su valor de clase para la observación. Esto puede resultar útil para comprender la relación de un solo atributo con los valores de clase y resaltar estructuras útiles como la separabilidad lineal de los valores de los atributos en clases.
El siguiente ejemplo muestra gráficos de densidad para el conjunto de datos de iris, mostrando archivos PDF sobre cómo se relaciona cada atributo con cada valor de clase.
Gráficos de densidad con paquete caret r:
# load the library
library(caret)
# load the data
data(iris)
# density plots for each attribute by class value
featurePlot(x=iris[,1:4], y=iris[,5], plot="density", scales=list(x=list(relation="free"), y=list(relation="free")), auto.key=list(columns=3))
Gráficos de caja y bigotes
Los diagramas de caja y bigotes (o diagramas de caja para abreviar) resumen la distribución de un atributo determinado mostrando un cuadro para los percentiles 25 y 75, una línea en el cuadro para el percentil 50 (mediana) y un punto para la media. Los bigotes muestran 1,5*la altura del cuadro (llamado rango intercuartil), lo que indica el rango esperado de los datos y cualquier dato más allá de esos bigotes se supone que es un valor atípico y se marca con un punto.
Nuevamente, cada atributo se puede resumir en términos de su valor de clase observado, lo que le brinda una idea de cómo se relacionan los valores de los atributos y los valores de clase, de manera muy similar a los gráficos de densidad.
El siguiente ejemplo muestra diagramas de caja y bigotes para el conjunto de datos de iris, mostrando un cuadro separado para cada valor de clase para un atributo determinado.
Diagramas de caja en el símbolo de intercalación r:
# load the library
library(caret)
# load the data
data(iris)
# box and whisker plots for each attribute by class value
featurePlot(x=iris[,1:4], y=iris[,5], plot="box", scales=list(x=list(relation="free"), y=list(relation="free")), auto.key=list(columns=3))
Resumen
En esta publicación, descubrió tres visualizaciones de datos rápidas utilizando el paquete caret R que pueden ayudarlo a comprender su conjunto de datos de clasificación.
Cada ejemplo es independiente y está listo para que usted pueda copiarlo y pegarlo en su propio proyecto y adaptarlo a su problema.