Introducción al Data Mining

Hoy en día es muy frecuente, sobre todo en las grandes empresas, la disponibilidad de grandes volúmenes de datos y el uso generalizado de herramientas informáticas para la extracción adecuada del conocimiento que encierra la información. Este hecho ha transformado el análisis de datos orientándolo hacia determinadas técnicas especializadas englobadas bajo el nombre de Minería de datos o Data Mining.

De modo resumido puede considerarse el Data Mining como un proceso de descubrimiento de nuevas y significativas relaciones, patrones y tendencias al examinar grandes cantidades de datos.

Las técnicas de Data Mining, persiguen el descubrimiento automático del conocimiento contenido en la información de modo ordenado en grandes Bases de Datos. Estas técnicas tienen como objetivo descubrir patrones, perfiles y tendencias a través del análisis de los datos utilizando tecnologías de reconocimiento de patrones, redes neuronales, clustering,  clasificación, predicción y otras técnicas avanzadas de análisis multivariante de datos.

El Concepto de Data Mining

Los recientes avances tecnológicos hacen que las capacidades para generar y almacenar datos se incrementen día a día. Entre los factores que influyen en esta realidad podemos destacar el uso extendido de los códigos de barras, la automatización de todo tipo de transacciones (comerciales, negocios, económicos, gubernamentales o científicos) y los avances en la recopilación de datos. Además Internet ha favorecido el rápido acceso a la información, tanto de datos como de los resultados obtenidos por otros teams.  Por otro lado, ha supuesto la puesta en contacto de workgroups de Organizaciones que, aunque  lejanos en el espacio, están muy cercanos en el ciberespacio, lo que ha dado lugar a fuertes economías de escala a través de la puesta en común de Base de datos, conocimientos y resultados exitosos.

Por otra parte, la evolución de los storage devices (en relación precio-Capacidad de almacenamiento), tales como los discos duros que pueden almacenar gigabytes de información a un precio reducido, ha dado lugar a que empresas y organizaciones almacenen todo tipo de información, desde los datos de sus clientes y sus transacciones, hasta los datos de telemetría, monitorización de pacientes, evolución de los precios en los mercados, etc. Con el tiempo la cantidad de datos que se fue almacenando empezó a crecer y, si bien, el soporte de las herramientas para realizar la gestión de los datos era el adecuado, las relaciones significativas existentes entre ellos, empezaron a sobrepasar las capacidades humanas para el análisis.

Todo este explosivo crecimiento de datos generó, a finales de los 80 la aparición de un nuevo campo de investigación que se denomino KDD (Knowledge Discovery in Databases). Bajo estas siglas se esconde: “el proceso no trivial de descubrimiento de patrones válidos, nuevos, potencialmente útiles y comprensibles en grandes volúmenes de datos”. El proceso de KDD ha servido para unir investigadores de áreas en principio dispersas como Inteligencia Artificial, Estadística, Técnicas de Visualización, Matemáticas en la búsqueda de técnicas eficientes y eficaces que ayuden a encontrar el potencial conocimiento que se encuentra inmerso en los grandes volúmenes de datos almacenados por las organizaciones diariamente.

Si bien el nombre con el que se apareció esta área de investigación fue el de KDD, otros nombres han sido usados para este mismo concepto. Algunos de ellos son Knowledge Discovery, Data Discovery, Information Discovery, Knowledge Extraction, Data Extraction, Information Extraction, Pattern Discovery, Knowledge Mining. En la actualidad es Data Mining, por el que es conocido mundialmente. Este término proviene de la analogía entre enfrentarnos a una gran cantidad de datos para descubrir patrones útiles y en la explotación de una montaña para encontrar una veta de mineral precioso. Ambos procesos necesitan de métodos inteligentes de exploración para optimizar los resultados. En un principio Data Mining fue tan sólo usado para referirse a la etapa del proceso en la que se aplican las técnicas y algoritmos de descubrimiento de patrones. No obstante, en la actualidad, se usa para referirse al conjunto del proceso global de descubrimiento de conocimiento a partir de los datos, mientras que el concepto de herramientas de Data Mining se refiere a los algoritmos de análisis de los datos.

El gran aumento de datos que tienen que analizar las organizaciones no solo dio lugar a la aparición de Data Mining, sino que al mismo tiempo y de manera paralela surge el concepto de Data Warehouse. Uno de los grandes problemas del Data Mining es que los datos nunca fueron guardados pensando en que posteriormente serian analizados, como consecuencia, de forma previa al análisis es necesario un proceso de integración y limpieza de datos que en muchos casos resulta más costoso que el propio análisis. Sin embargo, la aparición de los Data Warehouses como repositorios de información centralizada permite que los procesos de Data Mining se puedan realizar sobre conjuntos de datos que han sido previamente integrados y sometidos a Data Cleansing (procesos de limpieza)

Jonnathan De La Barra Acalorado

About justindeveloper

I am MCP (Microsoft Certified Professional). MCTS (Microsoft Certified Technology Specialist) and MCPD (Microsoft Certified Professional Developer), also I am SAP Business One Certified!! Desarrollando desde el IDE de Visual Studio NET 2003 hasta ahora con el Visual Studio NET 2010. Desde Microsoft SQL Server 2000 hasta ahora con el Microsoft SQL Server 2008 R2 y tambien con SharePoint, desde WSS 3.0 y MOSS 2007 y ahora familirizandome con el Sharepoint Foundation 2010 & Sharepoint Server 2010. The software development will follow being every time more wonderful!
This entry was posted in Business Intelligence. Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s