La minería de datos es el proceso que tiene como propósito descubrir, extraer y almacenar información relevante de amplias bases de datos, a través de programas de búsqueda e identificación de patrones relacionales globales, tendencias, desviaciones y otros indicadores aparentemente caóticos que tienen una explicación que pueden descubrirse mediante diversas técnicas de esta herramienta.
El objetivo fundamental es aprovechar el valor de la información y usar los patrones para que los directivos tengan un mejor conocimiento de su negocio y puedan tomar decisiones confiables.
Una de las ventajas de utilizar esta herramienta es que la Minería de datos a través de modelos avanzados y reglas de inducción, puede examinar gran cantidad de datos y encontrar patrones difíciles de identificar a simple vista.
A lo largo de la vida de una empresa se acumulan grandes cantidades de datos, muchos de los cuales serán usados y otros serán desechados ya sea por su “poca relevancia” o por cambios en las políticas de almacenamiento de datos de la empresa.Esto ha cambiado, y gracias a los avances tecnológicos, los datos pueden almacenarse en un ordenador mediante sistemas de cómputo (bases de datos) generando gigantescas cantidades de información; que en su momento satisfizo las necesidades de negocio de una empresa y como soporte al apoyo de decisiones.
La mayoría de las organizaciones no sufre de falta de datos, sino más bien por el exceso, por lo que cada vez es más complicado buscar datos específicos y significativos que permitan conocer el estado actual de la empresa para mejorar de manera significativa la toma de decisiones o solucionar problemas a corto y a largo plazo.Así la Minería de datos es la encargada de ver datos históricos con el propósito de descubrir, extraer y almacenar información relevante de amplias bases de datos.
Si bien el término MINERIA DE DATOS (Data mining) es una etapa dentro de un proceso mucho mayor llamado EXTRACCIÓN DE CONOCIMIENTO EN BASES DE DATOS, dentro de muchos entornos, los términos se usan de forma indistinta. La idea de minería de datos no es nueva, básicamente desde los años sesenta se manejaban conceptos como Data fishing, Data mining y Data archaelogy con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos. Ya en los ochentas, se empezó a consolidar el concepto de Data mining sin embargo a finales de la misma década solo un par de empresas se dedicaban a este tipo de tecnología; en contraste ya en el 2002 existen más de 100 empresas en el mundo que ofrecen soluciones para el Data mining.
A continuación, se plantearán algunas de las ventajas de usar la Minería de datos en perspectiva a otras formas de análisis de datos, cómo hacer minería, recalcar que la minería se trabaja sobre datos que ya se tienen; además se explicará qué es el ciclo de la minería de datos (cómo funciona) y las técnicas más usadas en la minería de datos: REDES NEURONALES, ÁRBOLES DE DECISIÓN, ALGORITMOS GENÉTICOS, CLUSTERING, MODELOS ESTADÍSTICOS.
OBJETIVO GENERAL
Investigar y explicar la Minería de datos para basar en ella el desarrollo de sistemas de software, que faciliten el análisis de información y descubrimiento de conocimiento en amplias bases de datos.
OBJETIVOS ESPECÍFICOS
La minería de datos es el proceso que tiene como propósito descubrir, extraer y almacenar información relevante de amplias bases de datos, a través de programas de búsqueda e identificación de patrones relacionales globales, tendencias, desviaciones y otros indicadores aparentemente caóticos que tienen una explicación que pueden descubrirse mediante diversas técnicas de esta herramienta.
El objetivo fundamental es aprovechar el valor de la información y usar los patrones para que los directivos tengan un mejor conocimiento de su negocio y puedan tomar decisiones confiables.
Ventajas de la Minería de datos sobre otras herramientas de manejo de datos.
Las características que destacan la mayor parte de los fabricantes de estas herramientas son:
La Minería de datos hace uso de programas de búsqueda para detectar desviaciones, tendencias y patrones ocultos en los datos históricos.
Los mineros son programas pensados y creados por el usuario, en los que se emplean técnicas diferentes para la explotación de los datos, tales como cluster, asociaciones, clasificación, visualización, redes neuronales, algoritmos genéticos, detección de desviaciones, entre otros.
Los programas mineros trabajan con procesos automáticos principalmente sobre bases de datos relacionales para buscar datos extraños(datos desconocidos o pocos comunes en la información que se está manejando), patrones, tendencias o desviaciones; pueden ser ejecutados fuera de las horas pico, usando tiempos de máquina excedentes de noche o en horas de poco proceso, lo que los convierte en ayudantes importantes. Una ventaja de los programas mineros es que no requieren hardware especial o dedicado. Trabajan en las redes de oficina nacionales o regionales utilizando el servidor de la base de datos relacional y las pc’s o estaciones de trabajo ya existentes es decir, trabajan realizando labores útiles mientras los usuarios no se encuentran trabajando.
Datos estables y coherentes que se van acumulando a lo largo de la vida de las empresas.
Los criterios de búsqueda son las normas, tendencias y patrones desde los cuales los programas mineros realizarán el proceso de selección y búsqueda en los datos históricos. La prioridad de búsqueda, los criterios de interés y las explicaciones de situaciones extrañas son definidos por el usuario. Una vez establecidos los criterios de selección y búsqueda, se analizan los datos históricos reportando los hallazgos inmediatamente en un archivo para su posterior revisión y decisión final.
Los hallazgos son los datos resultantes de correlacionar los criterios de selección y búsqueda con los datos históricos. El ser humano desempeña un papel fundamental, ya que sólo él puede decir si el patrón, tendencia o criterio, tiene la importancia, pertinencia y utilidad de la empresa.
El proceso de minería de datos es un ciclo, debido a los que los resultados obtenidos pueden alimentar nuevamente dicho proceso; en este intervienen cuatro procesos que son:
1. Los usuarios de la información deberán identificar los problemas del negocio y las áreas donde los datos pueden dar valor agregado a la empresa, esto es: a raíz deun problema surge la necesidad de analizar a detalle los datos de la empresa para poder encontrar posibles soluciones al mismo, o bien, información que haga que las decisiones tomadas sean lo más certeras posibles. Asimismo, es importante identificar las áreas en donde la información es muy cambiante, pero primordial para la competitividad de la empresa. Para esto pueden manejarse diferentes criterios, no se puede decir específicamente cuáles son los correctos debido a que esto depende de las características de la empresa, pero el objetivo a perseguir es determinar los criterios, ideas, normas y cuestionamientos que fungirán como entrada para el proceso de minería de datos.
2. El usuario para analizar la información histórica seleccionará el algoritmo o algoritmos adecuados de minería. Posteriormente, estos algoritmos son traducidos a programas mineros que realizarán las búsquedas con los criterios previamente definidos.
Existen varias dificultades que pueden interferir con el resultado que se obtenga del análisis y esto es porque los datos se pueden encontrar en diferentes formas, formatos y en múltiples sistemas, aunado a que pueden provenir de fuentes internas o externas; para resolver este problema se ha hecho uso del data warehouse; es posible hacer Minería de datos sin necesidad de data warehouse pero es importante tener claro que la información deberá estar lo más uniforme y congruente posible, ya que mucho depende de esto la certidumbre de los resultados que arroje.
3. Incorporar la información obtenida a través del proceso de Minería de datos al proceso de toma de decisiones; así como presentar los hallazgos encontrados a los responsables de las operaciones de forma que la información obtenida pueda integrarse en los procesos de la empresa y pueda aplicarse en la solución de los problemas.
4. Medir los resultados: Medir el valor de los hallazgos encontrados, que se proporcionan al tomador de decisiones con relación a la solución de los problemas identificados y a los criterios definidos en el primer punto.
Las técnicas de la Minería de datos provienen de la Inteligencia Artificial y de la Estadística, dichas técnicas no son más que algoritmos algo sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.
Las técnicas más representativas son:
Esta técnica de inteligencia artificial, en los últimos años se ha convertido en uno de los instrumentos de uso frecuente para detectar categorías comunes en los datos, debido a que son capaces de detectar y aprender complejos patrones, y características de los datos.
Una de las principales características de las redes neuronales, es que son capaces de trabajar con datos incompletos e incluso paradójicos, que dependiendo del problema puede resultar una ventaja o un inconveniente. Además esta técnica posee dos formas de aprendizaje: supervisado y no supervisado.
Algunos ejemplos de red neuronal son:
Ejemplos:
Un problema relacionado con el análisis de cluster es la selección de factores en tareas de clasificación, debido a que no todas las variables tienen la misma importancia a la hora de agrupar los objetos. Otro problema de gran importancia y que actualmente despierta un gran interés es la fusión de conocimiento, ya que existen múltiples fuentes de información sobre un mismo tema, los cuales no utilizan una categorización homogénea de los objetos. Para poder solucionar estos inconvenientes es necesario fusionar la información a la hora de recopilar, comparar o resumir los datos.
Ejemplos:
Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):
Aplicaciones
Las operaciones comerciales, de algunas de las grandes empresas, hoy en día se basan en informes periódicos producidos por consultas en bases de datos pregrabadas: ¿cuál es la cifra de ventas en una tienda?, ¿qué tendencias se derivan de las cifras de ventas?, ¿en dónde tienen una mejor aceptación los productos: en las tiendas del centro o en otras tiendas? Los informes con referencias cruzadas forman la base de la mayoría de las decisiones de los ejecutivos. Las consultas se elaboran de manera interactiva con el usuario para garantizar que la información presente una estructura eficiente. Estos informes se han elaborado para responder a preguntas recurrentes.
Por ejemplo, un analista tiene la siguiente suposición: “En el oeste se venden más camisas de manga corta que en el este”. Lleva a cabo una consulta en la base de datos, obtiene un informe que confirma o no su suposición. Una forma de probar la hipótesis anterior es la presentada por la Minería de datos, donde se sigue todo un proceso de búsqueda de patrones y criterios definidos por el usuario hasta llegar a la información relevante que apoye o niegue su hipótesis.
Los hallazgos encontrados por los programas mineros ayudan a los directivos a analizar los hábitos de los clientes a fin de satisfacer mejor su demanda, mejorar la administración de inventarios y, en general, aumentar sus márgenes de utilidad.
Los principales distribuidores de refrescos y golosinas, como por ejemplo los de papas “Lays”, utilizan soluciones de información estratégica para maximizar sus beneficios y mantener un alto nivel de satisfacción entre sus clientes mediante la entrega a tiempo de productos de alta calidad. Para ello administran los movimientos a través de la red de distribución de acuerdo con la información acerca de lo que se vende en las tiendas; estos datos permiten conocer las variaciones de temporada. No obstante, en este negocio, si uno se basa solamente en esta situación y en las previsiones derivadas de ellas, pronto desaparece. Para competir se necesita información en tiempo real sobre lo que sucede; por ello, los conductores de camión llevan ordenadores conectados por radio para informar lo que ven cada vez que visitar a un minorista.
Con esta información inmediata, las principales empresas pueden hacer ajustes sin demora y sacar el mejor provecho al inventario perecedero de la red de distribución. Además, la información procedente de las aplicaciones de información estratégica sobre lo que se vende y lo que no, permite a las empresas cambiar su producción en fábrica para adaptarse a la demanda.
Otro caso es el de la moda femenina, un análisis oportuno de la información constituye la clave del éxito en este negocio. La moda es estacional, pues su ciclo de vida es aproximado de 3 meses en promedio, tiene una vida útil corta en almacén, un alto índice de rotación de existencias y da elevados beneficios. Además es de suma importancia detectar rápidamente las nuevas tendencias. Así, si se pudieran predecir las prendas que se comprarán durante una semana determinada en una tienda, podrá reducir el inventario de la tienda y el desembolso del capital y aumentar sus beneficios. El análisis diario por producto de la información sobre ventas de un comercio puede incrementar su margen en determinado porcentaje.
La Minería de datos, que permite la gestión en tiempo real de manera eficaz, es una herramienta aplicable a cualquier tipo de empresa. Una amplia gama de compañías pueden tener aplicaciones exitosas con ella.
En general los ejemplos muestran las ventajas que tiene el uso de Minería de datos para comprender mejor al cliente y que las empresas puedan desarrollar campañas de ventas más eficaces, así como una mercadotecnia mejor dirigida y estrategias innovadoras de desarrollo de productos que resulten en mayores ingresos y rentabilidad.
En la actualidad el valor de la información se ha ampliado hasta convertirse en un activo estratégico para la competitividad de una empresa. Su unidad y consistencia son importantes, pues de estas características depende una buena parte de la confiabilidad de la información seleccionada para tomar decisiones.
La Minería de datos ayuda a los directivos a obtener una visión más completa y detallada de su negocio ya que les permite buscar datos de sus operaciones cotidianas que se salen de los rangos que están considerados como normales de lo que, en parte, depende la confiabilidad de la información para la toma de decisiones.
En la medida en la que una empresa capte datos de sus operaciones cotidianas tendrá la oportunidad de correlacionarlos y hacer descubrimientos que le ayuden a identificar posibles clientes, puntos de venta, fraudes, entre otros.
La Minería de datos tiene futuro dentro de las empresas, debido a que existen grandes bases de datos que contienen valores desaprovechados; los mercados están más saturados y se requieren de análisis intensos para captar la atención de los clientes.
En todo el proceso de la Minería de datos, el ser humano es el factor más importante, ya que sólo él tiene la capacidad de analizar y decidir si los patrones, normas o funciones encontrados tienen importancia, pertinencia y utilidad para su empresa.
Enlaces utilizados:
http://html.rincondelvago.com/mineria-de-datos.html
http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/IM_2006.pdf
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
http://www.monografias.com/trabajos55/mineria-de-datos/mineria-de-datos.shtml
No hay comentarios:
Publicar un comentario