Los datos se han convertido en un recurso más importante en todo el mundo y están aumentando día a día. Siempre hay una relación entre un dato y otro y es sorprendente una vez que identificamos el patrón entre esas entidades de datos. En todo el mundo, los datos continúan de acuerdo con un patrón con una conexión de lo que sucedió en el pasado y siempre hay una manera de predecir los resultados del futuro. Se identifican muchos patrones y relaciones ocultos y potencialmente útiles utilizando técnicas de minería de datos.

Los métodos de minería de datos ampliamente utilizados son,

(I) extracción / identificación del patrón

(II) agrupamiento de datos

(III) clasificación / categorización

Este artículo se centrará en la Clasificación y sus técnicas con el uso de aplicaciones del mundo real.

La clasificación está bien establecida, es una técnica de minería de datos supervisada en la que la variable de respuesta es cualitativa (o categórica) y toma uno de un conjunto discreto de valores posibles. El modelo de clasificación se crea utilizando datos de entrenamiento y luego se utilizará para clasificar nuevas instancias. El conjunto de datos de entrenamiento contiene datos que se han categorizado previamente y en base a eso los algoritmos encuentran la categoría a la que pertenecen los nuevos puntos de datos. Los problemas de clasificación ocurren con mucha frecuencia y el siguiente es un buen ejemplo en el que necesitamos usar la clasificación. Un banco quiere analizar los datos para saber qué clientes están seguros y cuáles son riesgosos para aceptar la solicitud de préstamo.

La clasificación es una técnica importante en la minería de datos y se usa ampliamente en varios campos. Hay varias formas que se pueden usar para lograr la clasificación, como la inducción del árbol de decisión, las redes bayesianas, el clasificador vecino K más cercano, etc.

Clasificación clasifica todos los elementos en un conjunto de datos en un conjunto predefinido de clases o grupos. Además, asigna elementos de una colección a categorías o casos de destino. El objetivo principal de la clasificación es predecir con precisión las clases objetivo.

El clasificador o modelo de construcción tiene pocos pasos. El primer paso es comprender los datos y las relaciones entre los datos. entonces los algoritmos de clasificación tales como la inducción del árbol de decisión, la red Bayesiana, el clasificador vecino K-más cercano construirán el clasificador. Este clasificador está compuesto por tuplas de bases de datos y etiquetas asociadas de la tabla. En la clasificación, cada derribo que constituye el conjunto de entrenamiento se denomina categoría o clase. Luego, la clasificación se utilizará para estimar la precisión de la clasificación.

Muchas investigaciones se han llevado a cabo para la minería de datos utilizando técnicas de clasificación. Las técnicas ampliamente utilizadas en clasificación son la regresión logística, los árboles de decisión, las redes neuronales basadas en ingenuos, los vecinos más cercanos, etc. Esta revisión se centrará principalmente en la regresión logística y el análisis discriminante lineal con aplicaciones de clasificación del mundo real y los experimentos de investigación que se han realizado con LR, LDA y otras técnicas de clasificación como redes neuronales, árboles de decisión, etc.