Existen muchos ciclos de vida de los datos, lo importante es utilizarlo de manera consistente en la organización y entender las diferencias entre cada una de las fases.
Existen muchas representaciones del ciclo de vida de los datos, ninguna puede considerarse como correcta o incorrecta. Dependiendo de la publicación que se revise, cada una describe diferentes procesos, fases o etapas por las cuales pasan los datos, cada una con características diferentes.
El DMBoK2 (DAMA International, 2017) presenta el siguiente ciclo de vida de los datos:
- Planear
- Diseñar y Habilitar
- Crear/Obtener
- Almacenar/Mantener
- Usar
- Mejorar
- Purgar
El ciclo de vida de los datos aplicado a las áreas de conocimiento del DMBoK2.
En (Sebastian-Coleman, Navigating the Labyrinth an Executive Guide to Data Management, 2018) se presenta el ciclo de vida anterior desarrollado para 4 áreas de conocimiento:
- Gobierno de Datos
- Seguridad de Datos
- Metadatos
- Calidad de Datos
El Gobierno de Datos y el ciclo de vida de los datos.
Cada organización debe adoptar un modelo de gobierno que soporte su estrategia de negocio y que pueda ser exitoso dentro del contexto de su cultura organizacional, el ciclo de vida de los datos aplicado al Gobierno de Datos es:
- Planear, para conectar los requerimientos de datos con la estrategia de la organización.
- Diseñar y Habilitar, asegurar que existan políticas para permitir el uso y evitar el uso indebido de los datos a lo largo del tiempo.
- Crear/Obtener, asegurar que los datos se crean u obtienen siguiendo métodos acordados.
- Almacenar/Mantener, asegurar que el almacenamiento de los datos siga las políticas y requerimientos regulatorios.
- Usar, asegurar que el acceso sea gestionado y que los datos no sean mal utilizados.
- Mejorar, permitir a la organización identificar y aprovechar oportunidades para obtener valor adicional de los datos.
- Purgar, eliminar completamente de la organización los datos siguiendo las políticas y requerimientos regulatorios.
La Seguridad de Datos y el ciclo de vida de los datos.
Los datos que son gestionados siguiendo las mejores prácticas de la Gestión de Datos son más fáciles de proteger, dado que pueden ser clasificados y etiquetados con un alto grado de certeza, el ciclo de vida de los datos aplicado a la Seguridad de Datos es:
- Planear, conectar los datos a los requerimientos de seguridad y privacidad que deba cumplir la organización.
- Diseñar y Habilitar, incorporar la protección y la seguridad de los datos en los sistemas.
- Crear/Obtener, clasificar los nuevos datos para que puedan protegerse adecuadamente.
- Almacenar/Mantener, asegurar que el almacenamiento de datos siga las políticas y los requerimientos regulatorios.
- Usar, gestionar los derechos de acceso para evitar el uso indebido y permitir el uso apropiado de los datos.
- Mejorar, mantenerse al tanto de los requerimientos regulatorios y las amenazas emergentes.
- Purgar, purgar los datos siguiendo las políticas y los requerimientos regulatorios
Los Metadatos y el ciclo de vida de los datos.
Los Metadatos son datos. Tienen un ciclo de vida y debe gestionarse de acuerdo con este ciclo de vida.
A medida que aumenta el volumen y la velocidad de los datos, los beneficios de tener Metadatos confiables también se incrementan, el ciclo de vida de los datos aplicado a los Metadatos es:
- Planear, definir los requerimientos de los Metadatos.
- Diseñar y Habilitar, identificar oportunidades de crear y gestionar Metadatos como parte de las actividades habituales de la Gestión de Datos.
- Crear/Obtener, asegurar que los Metadatos son creados y cumplen los requerimientos de calidad.
- Almacenar/Mantener, asegurar que los Metadatos se mantienen actualizados y cumplen con los requerimientos.
- Usar, usar los Metadatos para obtener valor de los datos. Habilitar proceso de retroalimentación para mejorar la calidad de los Metadatos.
- Mejorar, incrementar los Metadatos existentes con nuevo conocimiento. Implementar nuevos requerimientos de Metadatos.
- Purgar, purgar o almacenar Metadatos obsoletos.
La Calidad de Datos y el ciclo de vida de los datos.
El costo de tener datos correctos desde el inicio es más bajo que el costo de tener datos incorrectos y corregirlos, el ciclo de vida de los datos aplicado a la Calidad de Datos es:
- Planear, definir las características de la alta calidad de los datos.
- Diseñar y Habilitar, definir los controles en los sistemas y procesos para prevenir errores y soportar la calidad de datos en curso.
- Crear/Obtener, medir o inspeccionar los datos para asegurar que cumple con los requerimientos de calidad.
- Almacenar/Mantener, monitorear la calidad de los datos dentro de los sistemas y los procesos para asegurar que continúan cumpliendo con las expectativas.
- Usar, habilitar proceso de retroalimentación que identifique maneras de mejorar la calidad de los datos.
- Mejorar, actuar en las oportunidades para mejorar la calidad de los datos.
- Purgar, identificar adecuadamente y purgar los datos basados en los requerimientos.
Esta tabla es el resumen del ciclo de vida y las 4 áreas de conocimiento:
Etapa del Ciclo de Vida | Gobierno de Datos | Seguridad de Datos | Metadatos | Calidad de Datos |
---|---|---|---|---|
Planear | Para conectar los requerimientos de datos con la estrategia de la organización. | Conectar los datos a los requerimientos de seguridad y privacidad que deba cumplir la organización. | Definir los requerimientos de los Metadatos. | Definir las características de la alta calidad de los datos. |
Diseñar y habilitar | Asegurar que existan políticas para permitir el uso y evitar el uso indebido de los datos a lo largo del tiempo. | Incorporar la protección y la seguridad de los datos en los sistemas. | Identificar oportunidades de crear y gestionar Metadatos como parte de las actividades habituales de la Gestión de Datos. | Definir los controles en los sistemas y procesos para prevenir errores y soportar la calidad de datos en curso. |
Crear/Obtener | Asegurar que los datos se crean u obtienen siguiendo métodos acordados. | Clasificar los nuevos datos para que puedan protegerse adecuadamente. | Asegurar que los Metadatos son creados y cumplen los requerimientos de calidad. | Medir o inspeccionar los datos para asegurar que cumple con los requerimientos de calidad. |
Almacenar/Mantener | Asegurar que el almacenamiento de los datos siga las políticas y requerimientos regulatorios. | Asegurar que el almacenamiento de datos siga las políticas y los requerimientos regulatorios. | Asegurar que los Metadatos se mantienen actualizados y cumplen con los requerimientos. | Monitorear la calidad de los datos dentro de los sistemas y los procesos para asegurar que continúan cumpliendo con las expectativas. |
Usar | Asegurar que el acceso sea gestionado y que los datos no sean mal utilizados | Gestionar los derechos de acceso para evitar el uso indebido y permitir el uso apropiado de los datos. | Usar los Metadatos para obtener valor de los datos. Habilitar proceso de retroalimentación para mejorar la calidad de los Metadatos. | Habilitar proceso de retroalimentación que identifique maneras de mejorar la calidad de los datos. |
Mejorar | Permitir a la organización identificar y aprovechar oportunidades para obtener valor adicional de los datos. | Mantenerse al tanto de los requerimientos regulatorios y las amenazas emergentes. | Incrementar los Metadatos existentes con nuevo conocimiento. Implementar nuevos requerimientos de Metadatos. | Actuar en las oportunidades para mejorar la calidad de los datos. |
Purgar | Eliminar completamente de la organización los datos siguiendo las políticas y requerimientos regulatorios. | Purgar los datos siguiendo las políticas y los requerimientos regulatorios | Purgar o almacenar Metadatos obsoletos. | Identificar adecuadamente y purgar los datos basados en los requerimientos. |
Ciclo de vida de la información.
El ciclo de vida de la información y el ciclo de vida de los datos lo utiliza de forma indistinta (Sebastian-Coleman, Measuring Data Quality for Ongoing Improvement. A Data Quality Assessment Framework., 2013) el cual ofrece una manera de ver como se gestionan los datos.
El ciclo de vida de los datos propuesto utiliza el acrónimo POSMAD:
- Plan – Planear
- Obtain – Obtener
- Store & Share – Almacenar y Compartir
- Maintain – Mantener
- Apply – Aplicar
- Dispose – Eliminar
Estos pasos permiten entender que pasa con los datos y la información conforme se va moviendo horizontalmente a lo largo de la organización, y permite tomar decisiones de lo que está funcionando y lo que no esté funcionando para identificar oportunidades de mejora.
Ciclo de vida de los datos en la Analítica.
No todos los datos pasan por todas las fases del ciclo de vida de los datos (Eryurek, Gilad, Kibunguchy-Grant, & Ashdown, 2021). Las organizaciones trabajan con datos transaccionales así como datos para la analítica, el ciclo de vida de los datos enfocado en la Analítica es:
- Creación de los datos, pueden crearse en alguna de estas 3 formas:
- Adquisición de datos producidos por un tercero.
- Entrada de datos ya sea manual por personas o dispositivos dentro de la organización.
- Captura de datos cuando son generados por los dispositivos dentro de la organización como sensores de internet de las cosas (IoT por sus siglas en inglés).
- Procesamiento de los datos, aquí se desarrollan por ejemplo los procesos de ETL, los datos aún no entregan ningún valor a la organización en este punto.
- Almacenamiento de los datos, tantos los datos como los metadatos deben almacenarse tomando en cuenta los niveles adecuados de protección.
- Uso de los datos, es en esta fase donde los datos son realmente útiles y apoyan a la organización para tomar decisiones de negocio basadas en los datos.
- Archiving de los datos, los datos son removidos de todos los ambientes productivos y copiados en otro ambiente, se almacenan en caso de ser requeridos nuevamente en un ambiente productivo de la organización.
- Destrucción de los datos, o purga de los datos, se refiere a remover cualquier copia de los datos de la organización, normalmente los datos a eliminar se toman de la fase de archiving.
Conclusiones
- Existen muchos ciclos de vida de los datos, lo importante es utilizarlo de manera consistente en la organización y entender las diferencias entre cada una de las fases.
- Diferentes datos pueden tener diferentes ciclos de vida.
- Los ciclos de vida son una simplificación de la realidad por lo que las relaciones de los datos pueden ser más complejas de lo que se presenta en los diferentes ciclos de vida que se revisaron en este artículo.
- La creación y el uso de datos son los puntos más críticos en el ciclo de vida de los datos.
- Cualquier función o área de conocimiento de la gestión de datos se entiende y administra mejor utilizando el ciclo de vida de los datos.
Bibliografía
DAMA International. (2017). DAMA – DMBOK Data Management Body of Knowledge (2nd ed.). Basking Ridge, NJ, USA: Technics Publications.
Eryurek, E., Gilad, U., Kibunguchy-Grant, A., & Ashdown, J. (2021). Data Governance The Definitive Guide. People, Process, and Tools to Operationalize Data Trustworthiness. Sebastopol, CA, USA: O’Reilly Media, Inc.
Sebastian-Coleman, L. (2013). Measuring Data Quality for Ongoing Improvement. A Data Quality Assessment Framework. Waltham, MA, USA: Morgan Kaufmann.
Sebastian-Coleman, L. (2018). Navigating the Labyrinth an Executive Guide to Data Management. Basking Ridge, NJ, USA: Technics Publications.