Una forma sencilla de crear nubes de palabras para científicos de datos
por Kavita Ganesan
Hace aproximadamente un año, busqué por todas partes una biblioteca de nube de palabras de Python que pudiera usar desde mi cuaderno Jupyter. Necesitaba que fuera lo suficientemente flexible como para usar counts
o tfidf
cuando fuera necesario o simplemente aceptar un conjunto de palabras y sus pesos correspondientes.
Me sorprendió un poco que algo así no existiera ya en bibliotecas como plotly
. Todo lo que quería hacer era comprender rápidamente mis datos de texto y vectores de palabras. Pensé que probablemente no era demasiado pedir...
Aquí estoy, un año después, usando mi propia biblioteca de visualización de word_cloud. No es el más bonito ni el más sofisticado, pero funciona en la mayoría de los casos. Decidí compartirlo para que otros también pudieran usarlo. Después de la instalación, aquí hay algunas formas en que puede usarlo.
Genera nubes de palabras con un solo documento de texto
Este ejemplo muestra ejemplos de cómo generar nubes de palabras con un solo documento. Si bien los colores pueden ser aleatorios, en este ejemplo, los colores se basan en la configuración de color predeterminada.
De forma predeterminada, las palabras se ponderan según el recuento de palabras, a menos que solicite explícitamente la ponderación tfidf. La ponderación Tfidf sólo tiene sentido si tiene muchos documentos para empezar.
Genere nubes de palabras a partir de múltiples documentos
Digamos que tienes 100 documentos de una categoría de noticias y solo quieres ver cuáles son las menciones comunes.
Genere nubes de palabras a partir de pesos existentes
Digamos que tienes un conjunto de palabras con sus pesos correspondientes y solo quieres visualizarlo. Todo lo que necesita hacer es asegurarse de que los pesos estén normalizados entre [0 - 1].
¡Espero que encuentres esto útil! No dude en proponer cambios para embellecer el resultado; simplemente abra una solicitud de extracción con sus cambios.
Enlaces
- Vea mi cuaderno Jupyter con ejemplos de código
- Comience a usar la biblioteca word_cloud