Páginas

martes, 22 de noviembre de 2011

Generando datos de pruebas para poblar un DataWarehouse con Visual Studio 2010 Ultimate

Recientemente me he visto en la necesidad de poblar un DW para utilizarlo con fines demostrativos. Evidentemente no podía utilizar los datos de ningún cliente, así que tomé la estructura del DW y poblé sus dimensiones con algunos registros ficticios mediante inserts, en segundo lugar para poblar las tablas de hechos del modelo con un volumen de datos significativo, y sin perder la integridad referencial entre dimensiones y tablas de hechos, he utilizado los proyectos de bases de datos de Visual Studio 2010 Ultimate junto con la característica de plan de generación de datos (Data Generation Plan).
Visual-Studio-2010-Ultimate
Es muy posible que os estéis preguntando para que necesito llenar las tablas de mi DW con datos ficticios que cumplan la integridad referencial o que tengan cierto sentido, hay varias razones, la primera es la que comentaba inicialmente, necesito preparar una demo y no puedo usar datos reales, en otro tipo de escenarios menos comerciales nos podemos encontrar con la necesidad de generar conjuntos de datos para testear un entorno que va a pasar a producción y estudiar el tiempo de aprovisionamiento, también podríamos necesitar un conjunto de datos con una distrubución lo más cercana a la realidad para ver los tiempos de consultas que proporciona el sistema.
Debido lo sencillo que resulta el proceso y la poca información que he encontrado acerca de este tema (un video en Ingles que podéis ver aqui por Richard HundHausen), he creído que será interesante compartir esta información.
En lo concerniente a la integridad referencial, hay dos posibilidades, la primera es eliminar la integridad referencial y cargar la tabla o tablas de hechos y luego volver a configurarla, la otra posibilidad consiste en crear la integridad referencial en el modelo relacional y realizar la carga de datos de prueba poniendo a cero el número de registros a insertar en las dimensiones y especificar no borrar los registros existentes al realizar el aprovisionamiento (Generate Data F5)
Resumen de alto nivel de los pasos a seguir:
  1. Crear modelo relacional e insertar a mano los registros de las dimensiones
  2. En Visual Studio 2010 crear una conexión de base de datos en el apartado de Server explorer.
  3. Crear un nuevo proyecto de tipo bases de datos, si no disponéis de un modelo previo, lo podréis crear en este tipo de proyecto e implementar las tablas y relaciones desde Visual Studio y sincronizarlo a una instancia de SQL Server 2008 R2. La otra opción es consumir el modelo existente en la instancia de relacional y sincronizarlo con nuestro proyecto de base de datos.( Mi ejemplo esta basado en esta modalidad)
  4. Crear una conexión a la instancia de relacional desde Server Explorer
  5. Incorporación de la definición de la bbdd al proyecto de base de datos mediante comparación de esquemas.
  6. Creo un nuevo plan de generación de datos en el proyecto de base de datos y configuro para que tablas se generaran datos y para cada columna de cada tabla como obtengo el conjunto de datos válidos para esa tabla.
  7. Ejecuto la carga de datos y verifico resultados mediante una consulta a la tabla de hechos. 
  El modelo que he utilizado es el del diagrama DW-Esquema, como implementarlo está fuera del alcance de este artículo, pero si quiero compartir el esquema para dar una idea grafica de cómo está implementado, este esquema es muy sencillo y me sirve para ilustrar el artículo.(Modelo ficticio). El modelo está incluido en el proyecto que podéis descargar en el link más abajo, también están los registros a insertar en las dimensiones en ficheros de texto plano que recomiendo insertar con SSIS. Para el caso particular de la dimensión Fecha solo hay que seleccionar las 2 primeras columnas ya que el resto de columnas son calculadas y de seleccionarlas fallaría la inserción.
DW-Esquema
El siguiente paso consiste en crear un proyecto de tipo base de datos en Visual Studio, hacemos clic en File y  New Proyect  y en la plantilla de tipos de proyectos elegimos tipo Database y SQL Server 2008 Database Proyect y le damos un nombre significativo en mi ejemplo lo he llamado MyDWR3.
Proyecto-de-bbdd-sql-server-2008
El siguiente paso consiste en crear una conexión a la instancia de SQL Server 2008 R2 y base de datos MyDWR2  para permitir sincronizaciones (bidireccionales) entre el proyecto de base de datos y la base de datos. En Visual Studio 2010 en el explorador de servidores, (si no esta visible ir al menu view y pulsar sobre Server explorer), pulsamos sobre el botón Connect to database, elegimos  Microsoft SQL Server y continue (siguiente) y rellenamos los datos de la cadena de conexión (Server Name,Select or enter  Database y credenciales) testeamos conexión y ok.
nueva-conexion-a-instancia-de-sql
Una vez que tenemos la conexión creada con la base de datos ya podemos incorporar su definición al proyecto de base de datos, para ejecutar la sincronización debemos situarnos en el explorardor de servidores sobre  la conexión MyDWr3 y comparar esquemas, en la ventana de Compare Schema elegimos en el origen la base de datos y en el destino elegimos el proyecto MyDW. 
Compare-Schema-pic
Cuando se realiza la comparación de esquemas la primera vez Visual Studio detecta que ninguno de los objetos de la base de datos existe y por tanto sugiere la creación de todos los objetos, para ejecutar las sentencias de creacion de objetos sobre el proyecto pulsamos sobre el botón Write Updates, nos sale un popup de confirmación de escritura en Target, pulsamos ok para confirmar.
Creacion-de-objetos-en-el-proyecto
A continuación ya podemos verificar que las tablas de la base de datos se han sincronizado con el proyecto, esta sincronización solo se produce a nivel de esquema, los datos no se tienen en cuenta.
PRoyecto-sincronizado
Continuando procedemos a crear el plan de generación de datos dentro del proyecto, para crear un nuevo plan hacemos clic derecho sobre el nodo Data Generation Plans y elegimos add y Data Generation Plan.
Generacion-de-plan-de-datos
En este caso vamos a suponer que hemos eliminado la integridad referencial(PK y FK) y por tanto tendremos la opción de elegir tablas de forma individual. Seleccionamos la tabla de hechos.Venta, por defecto se configuran 50 filas y generación de dato aleatorios del tipo al que pertenece la columna (Int, float, varchar, etc)
Eleccion-de-tablas
Una vez seleccionada la tabla de hechos podemos configurar como se cargaran los valores para cada una de las columnas, el primer campo IdVenta es un autoincremental y por eso  aparece como SQL Computed Value sin posibilidad de especificar valores. El resto de columnas son configurables, En mi caso particular he dejado que cantidadVendida se genere de forma aleatoria y para el resto de columnas (IdFecha, IdVendedor, IdFormadePago e IdProducto) voy a especificar una consulta que le proporcionara los valores válidos para generar los datos.
Cuando selecciono en la columna Generator Data Bound Generator las propiedades de la columna me permiten especificar un origen de los configurados en el server Explorer y una consulta para acotar los valores que quiero utilizar en el llenado de tabla para cada columna.
Propiedades-de-data-bound-Generator
Consulta para acotar los valores de fecha y restringir el poblado de la tabla de hechos a solo un año desde 20010101 a 20011231, utilizo la consulta mostrada, asi me aseguro que la dispersión en el tiempo de los datos está más controlada, también se adjuntan el resto de consultas utilizadas para cada una de las columnas (Idvendedor, , IdProducto e IdFormadePAgo respectivamente. Dejo la fecha de inserción para que se genere de forma aleatoria por Visual Studio ya que no la voy a utilizar y me da igual cómo se generan los datos.
Consultas-para-Data-Bound-Generator
Una vez configuradas todas las columnas, puedo pre visualizar el resultado pulsando sobre el icono preview data generation
Previsualizacion-data-generation
Por ultimo solo nos falta generar los datos realmente, para esto solo tenemos que pulsar el botón Generate Data (F5) y confirmar si queremos eliminar el conjunto de datos existente en la base de datos.
Generate-Data
Dependiendo del volumen de datos generado y de como este configurado el modo de recuperación de nuestra base de datos es posible que al terminar tengamos que realizar un backup del log y comprimir el archivo de log para liberar espacio no utilizado.
Si queréis probar la generación de datos sobre mi modelo aquí podéis descargaros el proyecto con el modelo completo, solo recordaros que necesitáis VS 2010 para poder abrirlo. Si no disponéis de Visual Studio 2010 podréis crear el mismo tipo de proyectos usando Visual Studio 2008 con la versión de visual Studio mencionada  en este otro artículo.  Desarrollando con Team Fundation Server 2010, SQL 2008 R2 y Proyectos de bases de datos.
Espero que lo encontréis útil, ¡Hasta pronto!

No hay comentarios:

Publicar un comentario

LinkedIn