Búsqueda de sitios web

Selección de algoritmos combinados y optimización de hiperparámetros (optimización CASH)


La selección y configuración del modelo de aprendizaje automático puede ser el mayor desafío en el aprendizaje automático aplicado.

Se deben realizar experimentos controlados para descubrir qué funciona mejor para una determinada tarea de modelado predictivo de clasificación o regresión. Esto puede resultar abrumador dada la gran cantidad de esquemas de preparación de datos, algoritmos de aprendizaje e hiperparámetros de modelos que podrían considerarse.

El enfoque común es utilizar un atajo, como utilizar un algoritmo popular o probar una pequeña cantidad de algoritmos con hiperparámetros predeterminados.

Una alternativa moderna es considerar la selección de la preparación de datos, el algoritmo de aprendizaje y los hiperparámetros del algoritmo como un gran problema de optimización global. Esta caracterización generalmente se conoce como selección de algoritmo combinado y optimización de hiperparámetros, o "optimización de efectivo" para abreviar.

En esta publicación, descubrirá el desafío de la selección de modelos de aprendizaje automático y la solución moderna denominada CASH Optimization.

Después de leer este post, sabrás:

  • El desafío del modelo de aprendizaje automático y la selección de hiperparámetros.
  • Los atajos de utilizar modelos populares o tomar una serie de decisiones secuenciales.
  • La caracterización de la selección de algoritmos combinados y la optimización de hiperparámetros que subyace al AutoML moderno.

Empecemos.

Descripción general

Este tutorial se divide en tres partes; ellos son:

  1. Desafío de la selección de modelos e hiperparámetros
  2. Soluciones para la selección de modelos e hiperparámetros
  3. Selección de algoritmos combinados y optimización de hiperparámetros

Desafío de la selección de modelos e hiperparámetros

No existe una asignación definitiva de los algoritmos de aprendizaje automático a las tareas de modelado predictivo.

No podemos mirar un conjunto de datos y saber cuál es el mejor algoritmo a utilizar, y mucho menos las mejores transformaciones de datos a utilizar para preparar los datos o la mejor configuración para un modelo determinado.

En lugar de ello, debemos utilizar experimentos controlados para descubrir qué funciona mejor para un conjunto de datos determinado.

Como tal, el aprendizaje automático aplicado es una disciplina empírica. Es ingeniería y arte más que ciencia.

El problema es que hay decenas, si no cientos, de algoritmos de aprendizaje automático para elegir. Cada algoritmo puede tener hasta decenas de hiperparámetros para configurar.

Para un principiante, el alcance del problema es abrumador.

  • ¿Por dónde empiezas?
  • ¿Con qué empiezas?
  • ¿Cuándo descartas un modelo?
  • ¿Cuándo duplicas tu apuesta por un modelo?

Existen algunas soluciones estándar a este problema adoptadas por la mayoría de los profesionales, ya sean experimentados o no.

Soluciones para la selección de modelos e hiperparámetros

Veamos dos de los atajos más comunes para este problema de seleccionar transformaciones de datos, modelos de aprendizaje automático e hiperparámetros de modelos.

Utilice un algoritmo popular

Un enfoque es utilizar un algoritmo popular de aprendizaje automático.

Puede ser un desafío tomar la decisión correcta cuando se enfrentan estos grados de libertad, lo que obliga a muchos usuarios a seleccionar algoritmos basados en la reputación o el atractivo intuitivo, y/o dejar los hiperparámetros establecidos en valores predeterminados. Por supuesto, este enfoque puede producir un rendimiento mucho peor que el del mejor método y configuración de hiperparámetros.

— Auto-WEKA: selección combinada y optimización de hiperparámetros de algoritmos de clasificación, 2012.

Por ejemplo, si parece que todo el mundo habla de "bosque aleatorio", entonces el bosque aleatorio se convierte en el algoritmo adecuado para todos los problemas de clasificación y regresión que encuentre, y limitará la experimentación a los hiperparámetros del bosque aleatorio. Algoritmo forestal.

  • Atajo n.º 1: utilice un algoritmo popular como "bosque aleatorio" o "xgboost".

De hecho, el bosque aleatorio funciona bien en una amplia gama de tareas de predicción. Pero no podemos saber si será bueno o incluso mejor para un conjunto de datos determinado. El riesgo es que podamos lograr mejores resultados con un modelo lineal mucho más simple.

Una solución alternativa podría ser probar una variedad de algoritmos populares, lo que llevaría al siguiente atajo.

Probar secuencialmente transformaciones, modelos e hiperparámetros

Otro enfoque es abordar el problema como una serie de decisiones secuenciales.

Por ejemplo, revise los datos y seleccione transformaciones de datos que hagan que los datos sean más gaussianos, elimine los valores atípicos, etc. Luego pruebe un conjunto de algoritmos con hiperparámetros predeterminados y seleccione uno o algunos que funcionen bien. Luego ajuste los hiperparámetros de esos modelos de mayor rendimiento.

  • Atajo n.º 2: seleccione secuencialmente transformaciones de datos, modelos e hiperparámetros del modelo.

Este es el enfoque que recomiendo para obtener buenos resultados rápidamente; Por ejemplo:

  • Proceso de aprendizaje automático aplicado

Este atajo también puede ser efectivo y reduce la probabilidad de pasar por alto un algoritmo que funciona bien en su conjunto de datos. La desventaja aquí es más sutil y le afecta si busca resultados fantásticos o excelentes en lugar de simplemente buenos resultados rápidamente.

El riesgo es que seleccionar transformaciones de datos antes de seleccionar modelos puede significar que se pierda la secuencia de preparación de datos que aprovecha al máximo un algoritmo.

De manera similar, seleccionar un modelo o subconjunto de modelos antes de seleccionar los hiperparámetros del modelo significa que es posible que le falte un modelo con hiperparámetros distintos de los valores predeterminados que funcione mejor que cualquiera de los subconjuntos de modelos seleccionados y sus configuraciones posteriores.

Dos problemas importantes en AutoML son que (1) ningún método de aprendizaje automático funciona mejor en todos los conjuntos de datos y (2) algunos métodos de aprendizaje automático (por ejemplo, SVM no lineales) dependen de manera crucial de la optimización de hiperparámetros.

— Página 115, Aprendizaje automático automatizado: métodos, sistemas, desafíos, 2019.

Una solución alternativa podría ser verificar las configuraciones buenas o de buen rendimiento de cada algoritmo como parte de la verificación aleatoria del algoritmo. Ésta es sólo una solución parcial.

Hay un mejor enfoque.

Selección de algoritmos combinados y optimización de hiperparámetros

La selección de una canalización de preparación de datos, un modelo de aprendizaje automático y unos hiperparámetros del modelo es un problema de búsqueda.

Las posibles opciones en cada paso definen un espacio de búsqueda, y una sola combinación representa un punto en ese espacio que puede evaluarse con un conjunto de datos.

Navegar eficientemente por el espacio de búsqueda se conoce como optimización global.

Esto se ha entendido bien durante mucho tiempo en el campo del aprendizaje automático, aunque quizás de forma tácita, centrándose normalmente en un elemento del problema, como la optimización de hiperparámetros.

La idea importante es que existen dependencias entre cada paso, lo que influye en el tamaño y la estructura del espacio de búsqueda.

… [el problema] puede verse como un problema de optimización de hiperparámetro jerárquico único, en el que incluso la elección del algoritmo en sí se considera un hiperparámetro.

— Página 82, Aprendizaje automático automatizado: métodos, sistemas, desafíos, 2019.

Esto requiere que el modelo de preparación de datos y aprendizaje automático, junto con los hiperparámetros del modelo, formen el alcance del problema de optimización y que el algoritmo de optimización deba ser consciente de las dependencias entre ellos.

Este es un problema de optimización global desafiante, especialmente debido a las dependencias, pero también porque la estimación del rendimiento de un modelo de aprendizaje automático en un conjunto de datos es estocástica, lo que resulta en una distribución ruidosa de las puntuaciones de rendimiento (por ejemplo, a través de una validación cruzada repetida de k veces). .

… el espacio combinado de los algoritmos de aprendizaje y sus hiperparámetros es muy difícil de buscar: la función de respuesta es ruidosa y el espacio es de alta dimensión, involucra elecciones tanto categóricas como continuas, y contiene dependencias jerárquicas (por ejemplo, los hiperparámetros de un algoritmo de aprendizaje son solo significativo si se elige ese algoritmo; las elecciones de algoritmo en un método de conjunto solo son significativas si se elige ese método de conjunto, etc.).

— Auto-WEKA: selección combinada y optimización de hiperparámetros de algoritmos de clasificación, 2012.

Este desafío quizás fue mejor caracterizado por Chris Thornton, et al. en su artículo de 2013 titulado "Auto-WEKA: selección combinada y optimización de hiperparámetros de algoritmos de clasificación". En el documento, se refieren a este problema como “Selección de algoritmo combinado y optimización de hiperparámetros”, o “Optimización de CASH” para abreviar.

… un desafío natural para el aprendizaje automático: dado un conjunto de datos, elegir automática y simultáneamente un algoritmo de aprendizaje y establecer sus hiperparámetros para optimizar el rendimiento empírico. A esto lo llamamos el problema combinado de selección de algoritmo y optimización de hiperparámetros (abreviado: CASH).

— Auto-WEKA: selección combinada y optimización de hiperparámetros de algoritmos de clasificación, 2012.

Esta caracterización también se denomina a veces “Selección completa de modelo”, o FMS para abreviar.

El problema FMS consiste en lo siguiente: dado un conjunto de métodos de preprocesamiento, selección de características y algoritmos de aprendizaje, seleccionar la combinación de estos que obtenga el error de clasificación más bajo para un conjunto de datos determinado. Esta tarea también incluye la selección de hiperparámetros para los métodos considerados, lo que da como resultado un amplio espacio de búsqueda muy adecuado para técnicas de optimización estocástica.

— Selección del modelo de enjambre de partículas, 2009.

Thornton, et al. Se procedió a utilizar algoritmos de optimización global que son conscientes de las dependencias, los llamados algoritmos de optimización global secuencial, como versiones específicas de optimización bayesiana. Luego procedieron a implementar su enfoque para el banco de trabajo de aprendizaje automático WEKA, llamado Proyectos AutoWEKA.

Un enfoque prometedor es la optimización bayesiana y, en particular, la optimización basada en modelos secuenciales (SMBO), un marco de optimización estocástica versátil que puede funcionar con hiperparámetros tanto categóricos como continuos, y que puede explotar la estructura jerárquica derivada de parámetros condicionales.

— Página 85, Aprendizaje automático automatizado: métodos, sistemas, desafíos, 2019.

Esto proporciona ahora el paradigma dominante para un campo de estudio denominado “Aprendizaje automático automatizado”, o AutoML para abreviar. AutoML se preocupa por proporcionar herramientas que permitan a los profesionales con habilidades técnicas modestas encontrar rápidamente soluciones efectivas para tareas de aprendizaje automático, como la clasificación y el modelado predictivo de regresión.

AutoML tiene como objetivo proporcionar sistemas de aprendizaje efectivos y listos para usar para liberar a expertos y no expertos de las tediosas y lentas tareas de seleccionar el algoritmo correcto para un conjunto de datos en cuestión, junto con el método de preprocesamiento correcto y los diversos hiperparámetros de todos los componentes involucrados.

— Página 136, Aprendizaje automático automatizado: métodos, sistemas, desafíos, 2019.

Las técnicas de AutoML se proporcionan a través de bibliotecas de aprendizaje automático y cada vez más como servicios, el llamado aprendizaje automático como servicio, o MLaaS para abreviar.

Lectura adicional

Esta sección proporciona más recursos sobre el tema si desea profundizar más.

Papeles

  • Auto-WEKA: Selección combinada y optimización de hiperparámetros de algoritmos de clasificación, 2012.
    Auto-WEKA 2.0: Selección automática de modelo y optimización de hiperparámetros en WEKA, 2016.
  • Haciendo una ciencia de la búsqueda de modelos: optimización de hiperparámetros en cientos de dimensiones para arquitecturas de visión, 2013.
  • Selección de modelo de enjambre de partículas, 2009.

Libros

  • Aprendizaje automático automatizado: métodos, sistemas, desafíos, 2019.

Artículos

  • Aprendizaje automático automatizado, Wikipedia.
  • Proyecto AutoWEKA.

Resumen

En esta publicación, descubrió el desafío de la selección de modelos de aprendizaje automático y la solución moderna denominada CASH Optimization.

Específicamente, aprendiste:

  • El desafío del modelo de aprendizaje automático y la selección de hiperparámetros.
  • Los atajos de utilizar modelos populares o tomar una serie de decisiones secuenciales.
  • La caracterización de la selección de algoritmos combinados y la optimización de hiperparámetros que subyace al AutoML moderno.

¿Tiene alguna pregunta?
Haga sus preguntas en los comentarios a continuación y haré todo lo posible para responderlas.

Artículos relacionados