martes, 29 de septiembre de 2009

Almacén de Datos - DataWarehouse

En el contexto de la informática, es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organización, más allá de la información transaccional y operacional, almacenada en una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos.

El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de información que se subdividen a veces en unidades lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o para el que sea necesario.

En un almacén de datos lo que se quiere es contener datos que son necesarios o útiles para una organización, es decir, que se utiliza como un almacén de datos para posteriormente transformarlos en información útil para el usuario. Un almacén de datos debe entregar la información correcta a la gente indicada en el momento óptimo y en el formato adecuado. El almacén de datos da respuesta a las necesidades de usuarios expertos o herramientas para hacer consultas o informes. Los usuarios finales pueden hacer fácilmente consultas sobre sus almacenes de datos sin tocar o afectar la operación del sistema.

Periódicamente, se importan datos al almacén de datos de los distintos sistemas de planeamiento de recursos de la entidad y de otros sistemas de software relacionados con el negocio para la transformación posterior. Es práctica común normalizar los datos antes de combinarlos en el almacén de datos mediante herramientas de extracción, transformación y carga. Estas herramientas leen los datos primarios (a menudo bases de datos de un negocio), realizan el proceso de transformación al almacén de datos (filtración, adaptación, cambios de formato, etc.) y escriben en el almacén.

Los almacenes de datos son el centro de atención de las grandes empresas actuales, porque son una colección de datos donde se encuentra integrada la información de estas, proporcionando una herramienta para que puedan hacer un mejor uso de la información y para el soporte al proceso de toma de decisiones gerenciales.

Existen numerosas causas que provocan suciedad en los registros de los sistemas operacionales, lo que trae como consecuencia que haya gran cantidad de datos almacenados en las empresas que carece de la calidad adecuada para ser utilizada de forma confiable.

El problema de la limpieza de datos es uno de los tres problemas fundamentales de los DW. Sin embargo, es poco tratado o evitado por muchas organizaciones, ya que no consideran adecuadamente el impacto negativo que puede ocasionar para el negocio el tener almacenada información deficiente.