Búsqueda de sitios web

Por qué debería verificar algoritmos puntuales en sus problemas de aprendizaje automático


Los algoritmos de verificación puntual consisten en obtener una evaluación rápida de un conjunto de algoritmos diferentes en su problema de aprendizaje automático para que sepa en qué algoritmos concentrarse y cuáles descartar.< /lapso>

En esta publicación, descubrirá los 3 beneficios de los algoritmos de verificación aleatoria, 5 consejos para la verificación aleatoria de su próximo problema y los 10 algoritmos de minería de datos más populares que podría usar en su conjunto de algoritmos para la verificación aleatoria.

Algoritmos de verificación puntual

Los algoritmos de verificación puntual son parte del proceso de aprendizaje automático aplicado. En un problema nuevo, necesita determinar rápidamente qué tipo o clase de algoritmos es bueno para seleccionar la estructura de su problema y cuáles no.

La alternativa a la verificación puntual es que se sienta abrumado por la gran cantidad de algoritmos y tipos de algoritmos que podría probar y que termine probando muy pocos o optando por lo que le ha funcionado en el pasado. Esto da como resultado una pérdida de tiempo y resultados deficientes.

Beneficios de los algoritmos de verificación puntual

Hay 3 beneficios clave de los algoritmos de verificación puntual de sus problemas de aprendizaje automático:

  • Velocidad: podrías pasar mucho tiempo jugando con diferentes algoritmos, ajustando parámetros y pensando qué algoritmos funcionarán bien en tu problema. He estado allí y termino probando los mismos algoritmos una y otra vez porque no he sido sistemático. Un solo experimento de verificación al azar puede ahorrar horas, días e incluso semanas de espera.
  • Objetivo: Existe una tendencia a optar por lo que le ha funcionado antes. Elegimos nuestro algoritmo (o algoritmos) favorito y los aplicamos a cada problema que vemos. El poder del aprendizaje automático es que existen muchas formas diferentes de abordar un problema determinado. Un experimento de verificación aleatoria le permite descubrir automática y objetivamente aquellos algoritmos que son mejores para seleccionar la estructura del problema para que pueda centrar su atención.
  • Resultados: los algoritmos de verificación puntual le brindan resultados utilizables rápidamente. Es posible que descubra una solución suficientemente buena en el primer experimento. Alternativamente, puede aprender rápidamente que su conjunto de datos no expone suficiente estructura para que cualquier algoritmo convencional funcione bien. La verificación puntual le brinda los resultados que necesita para decidir si avanzar y optimizar un modelo determinado o retroceder y revisar la presentación del problema.

Creo que comprobar los algoritmos convencionales sobre su problema es un primer paso obvio.

Consejos para algoritmos de verificación puntual

Hay algunas cosas que puede hacer cuando verifica algoritmos para asegurarse de obtener resultados útiles y procesables.

A continuación se presentan cinco consejos para asegurarse de aprovechar al máximo la verificación puntual de los algoritmos de aprendizaje automático de su problema.

  • Diversidad de algoritmos: desea una buena combinación de tipos de algoritmos. Me gusta incluir métodos basados en instancias (live LVQ y knn), funciones y núcleos (como redes neuronales, regresión y SVM), sistemas de reglas (como Decision Table y RIPPER) y árboles de decisión (como CART, ID3 y C4.5).
  • Mejor avance: cada algoritmo debe tener la oportunidad de dar lo mejor de sí. Esto no significa realizar un análisis de sensibilidad de los parámetros de cada algoritmo, sino utilizar experimentos y heurísticas para darle a cada algoritmo una oportunidad justa. Por ejemplo, si kNN está en la mezcla, dale 3 oportunidades con valores de k de 1, 5 y 7.
  • Experimento formal: no juegues. Existe una gran tentación de probar muchas cosas diferentes de manera informal, de jugar con algoritmos en su problema. La idea de la verificación puntual es llegar rápidamente a los métodos que funcionan bien para el problema. Diseñe el experimento, ejecútelo y luego analice los resultados. Sea metódico. Me gusta clasificar los algoritmos según sus ganancias estadísticamente significativas (en comparaciones por pares) y tomar los 3-5 primeros como base para realizar ajustes.
  • Punto de partida: los algoritmos de mejor rendimiento son un punto de partida, no la solución al problema. Los algoritmos que han demostrado ser eficaces pueden no ser los mejores para el trabajo. Es muy probable que sean indicadores útiles de tipos de algoritmos que funcionan bien en el problema. Por ejemplo, si a kNN le va bien, considere realizar experimentos de seguimiento con todos los métodos basados en instancias y variaciones de kNN que pueda imaginar.
  • Cree su lista corta: a medida que aprende y prueba muchos algoritmos diferentes, puede agregar nuevos algoritmos al conjunto de algoritmos que utiliza en un experimento de verificación aleatoria. Cuando descubro una configuración particularmente poderosa de un algoritmo, me gusta generalizarla e incluirla en mi suite, haciendo que mi suite sea más robusta para el siguiente problema.

Comience a desarrollar su conjunto de algoritmos para experimentos de verificación puntual.

Los 10 algoritmos principales

En 2008 se publicó un artículo titulado "Los 10 mejores algoritmos en minería de datos". ¿Quién podría superar un título como ese? También se convirtió en un libro "Los diez mejores algoritmos en minería de datos" e inspiró la estructura de otro "Aprendizaje automático en acción".

Este podría ser un buen artículo para comenzar con su lista corta de algoritmos para verificar su próximo problema de aprendizaje automático. Los 10 principales algoritmos para minería de datos enumerados en el artículo fueron.

  • C4.5 Este es un algoritmo de árbol de decisión e incluye métodos descendientes como los famosos algoritmos C5.0 e ID3.
  • k-significa. El algoritmo de agrupación de referencia.
  • Máquinas de vectores de soporte. Este es realmente un enorme campo de estudio.
  • A priori. Este es el algoritmo de referencia para la extracción de reglas.
  • EM. Junto con k-means, algoritmo de agrupamiento de referencia.
  • Rango de página. Rara vez toco problemas basados en gráficos.
  • AdaBoost. Esta es realmente la familia de los métodos de conjunto potenciadores.
  • knn (k-vecino más cercano). Método basado en instancias simple y eficaz.
  • Bayes ingenuo. Uso simple y robusto del teorema de Bayes sobre datos.
  • CART (árboles de clasificación y regresión) otro método basado en árboles.

También hay una excelente pregunta de Quora sobre este tema que puedes buscar en busca de ideas de algoritmos para probar en tu problema.

Recursos

  • Los 10 mejores algoritmos en minería de datos (2008)
  • Quora: ¿Cuáles son algunos de los algoritmos de aprendizaje automático que siempre debes conocer bien y por qué?

¿Qué algoritmos le gusta para detectar problemas? ¿Tienes un favorito?

Artículos relacionados