Resumen: Para aquellos que no pudieron asistir a la ponencia sobre Big Data “en directo” y para los que sí que lo hicieron pero quieren refrescar ahora el tema expuesto, es que he preparado éste resumen detallado intercalando el texto escrito en el “Power Point”.
Muchas gracias a todos por las diferentes muestras de agrado que
he recibido por la temática de la ponencia, en un momento que los escándalos
del programa de espionaje PRISM de la NSA, basado en Big Data, está
perjudicando tanto a dicho servicio. Yo soy del parecer que Big Data, bajo el
control del gobierno de las empresas y organizaciones y velando por el
cumplimiento legal y la privacidad, puede aportar un bien a las mismas y, por
extensión, a toda la sociedad.
El objetivo de la ponencia es ayudar a entender un poco más
Big Data y, a partir de ese conocimiento, poder gobernarlo y gestionarlo para
obtener valor.
Gracias de corazón a la Organización de itSMF por su excelente labor y a todas y todos los que pudieron asistir
en directo, confiando en haber sabido transmitirles el mensaje que da título a
la ponencia: Big Data: NO sin Gobierno, NO sin Gestión.
Autor del artículo
|
Colaboración
|
|
JOSÉ
LUIS COLOM PLANAS
|
||
Actualizado
|
15 de noviembre de 2013
|
Prefacio: Cada vez más los negocios, la economía y otros campos, hacen que sus decisiones se basen en datos y análisis, y menos en la intuición. Esa es la misión del Big Data que se abre paso rápidamente. Pero entraña riesgos.
Como cualquier Servicio de TI, Big Data debe ser gestionado
en base a procesos y bajo el control del Gobierno corporativo para evitar que
se escape de las manos. Sin olvidar las implicaciones en materia de protección
de datos.
Estudiaremos un marco de Gobierno que incluya alineación
estratégica con el negocio para entregar valor, Gestión de Riesgos,
políticas...
Veremos que procesos “clásicos” inciden especialmente en la
Gestión del Big Data desde el punto de vista del Servicio (ISO 20000:2011 y
Cobit 5) y de la Seguridad de la Información (ISO 27001). Discutiremos si
aparecen nuevos procesos específicos para Big Data.
Comentaremos los nuevos roles o desempeños profesionales que
surgen a partir del Big Data y su relación con TI, ya que los expertos lo
prevén como un generador de empleo.
ÍNDICE
1.
INTRODUCCIÓN AL BIG DATA1.1. Definición
1.2. Riesgos asociados
2. CARACTERÍSTICAS DE BIG DATA
2.1. Introducción
2.2. Volumen
2.3. Variedad
2.4. Velocidad
2.5. Variabilidad
2.6. Veracidad
3. ORÍGENES DE DATOS
4. ALGUNAS ÁREAS DE APLICACIÓN DE BIG DATA
5. TIPOS DE TÉCNICAS ANALÍTICAS
5.1. Clasificación
5.2. Aplicación
6. MODELO EbM (EVIDENCE BASED MANAGEMENT)
7. BIG DATA DEBE GESTIONARSE Y GOBERNARSE
8. GOBIERNO DE BIG DATA
8.1. Marco de gobierno de datos
8.2. Disciplinas fundamentales
8.2.1. Gestión de la calidad de los datos
8.2.2. Degradación de los datos
8.2.3. Gestión del ciclo de vida de la información
8.2.4. Seguridad y privacidad de la información
8.2.4.1. Seguridad de la Infraestructura
8.2.4.2. Privacidad de los datos
8.2.4.3. Gestión de los datos
8.2.4.4. Integridad y seguridad reactiva
9. GESTIÓN DE BIG DATA
9.1. Gestión de la capacidad y de la disponibilidad
9.2. Gestión del nivel de servicio
9.3. Gestión del riesgo y de la seguridad
9.4. Gestión de las relaciones con el negocio
9.5. Gestión financiera (Presupuesto y contabilidad de servicios)
10. ROLES RELACIONADOS CON BIG DATA
10.1. Específicos funcionales
10.1.1. Big Data Manager (Gestor)
10.1.2. Big Data Scientist (Científico de Datos)
10.1.3. Big Data Analyst / Explorer (Analista de datos)
10.1.4. Big Data Visualizer (Visualizador)
10.2. Específicos de infraestructura
10.2.1. Big Data Solutions Architect (Arquitecto de soluciones)
10.2.2. Big Data engineer (Ingeniero de sistemas)
10.3. De calidad de datos
10.3.1. Big Data Steward (Administrador)
10.3.2. Big Data Hygienist (Higienista)
10.4. De seguridad y privacidad
10.4.1. CISO (Chief Information Security Officer)
10.4.2. DPO (Data Protection Officer)
1.1. DEFINICIÓN
Sería una pobre simplificación hablar de Big Data
refiriéndose exclusivamente a grandes volúmenes de datos.
Siempre han existido grandes corporaciones cuyas BB.DD.
(Bases de Datos) cuentan con elevado volumen de información, y no por ello las
consideramos Big Data.
Una analogía en el mundo “no digital” (como puede apreciarse
en la diapositiva 5) sería una planta de reciclaje a la que llegan a toda
velocidad camiones que depositan una gran cantidad de fardos compuestos por
papeles prensados, procedentes de múltiples orígenes (colegios, oficinas,
despachos profesionales, domicilios particulares…) y en los más variados
formatos (hojas sueltas, cartulinas, periódicos, libretas, libros…) y tamaños
(A4, A3, no estándar…). Tal variedad conforma un entorno de datos difícil de
tratar con las infraestructuras y técnicas conocidas hasta ahora. Ése es el
entorno de Big Data trasladado a su equivalente digital.
Si bien pueden encontrarse diversas definiciones del término
Big Data, en general puede decirse que se trata de datos que no pueden ser
capturados, almacenados ni analizados ni con la infraestructura, ni con el
software tradicional que se han empleado hasta ahora.
Específicamente el término “Big Data” se refiere a las herramientas,
procesos y procedimientos que permiten a las organizaciones generar, manipular
y administrar grandes cantidades de datos, de múltiples orígenes y en diversos
formatos, para explotarlos en su beneficio.
1.2.
RIESGOS ASOCIADOS
El mundo está inmerso en la revolución de la información y el
conocimiento, por lo que tiene una clara tendencia a centrarse en los datos.
Unos para obtener, de forma legítima, el máximo rendimiento y
conocimiento de ellos (Big Data y técnicas analíticas) y, otros, para preservarlos
y proteger la esfera de privacidad de las personas. En consecuencia, es esencial encontrar un equilibrio entre los
beneficios de las tendencias innovadoras y los riesgos relacionados con la
privacidad.
Es un concepto que introdujo Ann Cavoukian (Comisionada de
información y privacidad de Ontario) que se conoce por PbD (Privacy by Design –
Privacidad desde el Diseño), que busca una relación win-win (ganar-ganar) en
los nuevos proyectos que, como Big Data, sean susceptibles de incorporar datos
personales.
2.
CARACTERÍSTICAS DE BIG DATA
2.1.
INTRODUCCIÓN
Llegados a este punto ya sabemos que, únicamente con
volúmenes elevados de datos, no podemos hablar de Big data. Hace falta algo
más.
Hace falta disponer de volúmenes de datos suficientes para
que los muestreos sean representativos, de varios orígenes para poder
correlacionarlos y también de técnicas analíticas para poder obtener
conocimiento. Si únicamente nos limitamos a almacenarlos no obtenemos provecho
de ellos y es lo que se conoce como “Síndrome de Diógenes digital”.
Las diferentes propuestas parece que están inmersas en un
conjunto de características, cuyos vocablos empiezan todos por la letra “V” (Volumen,
Variedad, Velocidad, Variabilidad, Veracidad… Valor). O es una gran coincidencia
o a los expertos les gusta jugar con las palabras…
La mayoría está de acuerdo, sin embargo, que para poder
hablar de Big Data de todas ellas las sustanciales son las tres primeras (volumen, variedad y velocidad) sumadas
al tratamiento analítico.
Normalmente la velocidad es circunstancial ya que dependerá en alguna medida de
las dos primeras.
2.2.
VOLUMEN
Se define como el espacio requerido para almacenar los datos
que, dada la naturaleza de Big Data, pueden ser de diferentes tipos
(estructurados, semiestructurados o desestructurados).
Actualmente se está escalando en capacidad de Terabytes a
Zetabytes, sin vislumbrarse un final.
2.3. VARIEDAD
Se define como los múltiples formatos de datos que pueden
concurrir en Big Data procedentes de diversos orígenes de datos (Texto, datos
de sensores, audio, video, data streams, Blogs, Redes Sociales, archivos de
LOGs…). Esta complejidad imposibilita los medios tradicionales de
almacenamiento y tratamiento.
2.4.
VELOCIDAD
Tiene dos posibles interpretaciones:
·
Por
un lado tiene que ver con “datos en movimiento” y se define como la cantidad de
información por unidad de tiempo que debemos obtener simultáneamente de los
diferentes orígenes de datos para almacenarla y/o tratarla.
·
Por
otro puede interpretarse como la velocidad a la que los datos van a prescribir.
A medida que aumentan los volúmenes, el valor de los datos individuales tiende
a disminuir más rápidamente con el tiempo, por lo que las organizaciones deben estar en condiciones
de analizar esta información prácticamente en tiempo real para, una vez
extraído su valor, eliminarla. En términos de tecnología esto se denomina “Streams
Computing”, en la cual es posible ejecutar procesos que se parecen a una
“consulta continua”.
2.5. VARIABILIDAD
Podemos definirla como las diferentes formas en las que los
datos pueden ser interpretados en función del contexto y de la consulta. Diferentes
consultas pueden requerir diferentes interpretaciones.
2.6.
VERACIDAD
La información debe ser verificada para poder apoyarse en ella
en la toma de decisiones. La Integridad como atributo de seguridad deberá
preservarse.
3.
ORÍGENES DE DATOS
Big Data puede aglutinar diferentes orígenes de datos. Éstos
pueden ir desde los más novedosos como pueden ser los procedentes de Social
Media (feeds de twitter©, publicaciones en Facebook©…), hasta TI tradicional
(BB.DD. procedentes de ERPs, CRMs…), pasando por lecturas biométricas o de
sensores de máquinas (IoT – Internet of Things / Internet de las cosas).
4.
ALGUNAS ÁREAS DE APLICACIÓN DE BIG DATA
5. TIPOS
DE TÉCNICAS ANALÍTICAS
5.1.
CLASIFICACIÓN
- Las técnicas descriptivas se ocupan de lo que ha sucedido en el pasado, categorizando, caracterizando y clasificando datos históricos (generalmente estructurados).
- Las técnicas predictivas utilizan la comprensión del pasado y el presente para predecir situaciones futuras.
- Las técnicas prescriptivas proporcionan a los responsables de tomar decisiones alternativas sofisticadas (conocimientos creados con niveles sustanciales de velocidad, tamaño, validez, alcance y profundidad) para determinar cuáles son las mejores respuestas.
En base a
ello, podemos atrevernos a ver las diferencias entre BI (Business Intelligence)
y Big Data:
- BI es una vista de retrovisor, un análisis de los datos del pasado para a partir de ellos intentar ver como se ha comportado la organización, un área funcional o cualquier aspecto de las mismas. En algunos casos dicho conocimiento nos permitirá intuir cómo evolucionará en el futuro. Normalmente utiliza datos de las BB.DD. estructuradas de la propia empresa. Utiliza técnicas analíticas descriptivas y en algún caso predictivas.
- Big Data suele analizar datos del pasado y del presente, de las BB.DD. de dentro de la empresa pero también de fuera, como hemos visto es múltiples formatos. A partir de correlacionarlos podremos predecir la evolución futura o incluso nos prescribirá acciones recomendadas. Utiliza técnicas analíticas predictivas y prescriptivas.
5.2.
APLICACIÓN
Con la atención puesta hoy en día en la transparencia y la responsabilidad
en el gobierno y la gestión empresarial, toda la presión se traslada a cómo se
toman las decisiones.
En consecuencia, la analítica ha de permitir a las empresas
aprovechar las oportunidades subyacentes y afrontar las situaciones que se vayan planteando, cada vez
más complejas, con decisiones mejor sopesadas.
La analítica debe convertirse en una competencia más de la Gestión
y para construirla se requiere que las organizaciones se centren en cuatro
imperativos estratégicos:
- Orientación a resultados. Centrarse en los resultados para ir más allá de los problemas.
- Gestión de la Información. Orientar la gestión de la información en torno a su aprovechamiento.
- Disciplina analítica. Modelar e incorporar la disciplina analítica en los medios de gestión.
- Uso analítico. Utilizar conocimientos derivados del análisis para cumplir objetivos específicos.
6. MODELO EbM (EVIDENCE BASED
MANAGEMENT)
Una de las tendencias innovadoras, a nivel mundial, en cuánto a la administración o la Gestión empresarial
es la EbM (Evidence based Management) conocida en España como ABE
(Administración basada en Evidencias) y que entre otros difunde el API
(Advanced Performance Institute).
La idea no es nueva ya que originariamente ésta surgió en la
Universidad de Sevilla durante el curso de doctorado Economía y Administración
de empresas 1998-2000, donde se impartió un módulo titulado “Administración de
organizaciones basada en la evidencia”, como parte del programa Dirección de
Empresas y Gestión de Marketing.
Partiendo de la estrategia del negocio, se aplica un modelo
basado en cinco fases:
- DEFINIR los objetivos y necesidades de información
- RECABAR la información adecuada
- ANALIZAR la información y obtener conocimiento
- PRESENTAR y comunicar el conocimiento
- ADOPTAR decisiones basadas en la evidencia
Este ciclo continuado para asistir de forma rigurosa a la
toma de decisiones empresariales, se apoya en la infraestructura de TI y en BI
y Big Data como habilitadores.
Hago notar que la fase 1 (definir los objetivos y necesidades
de información) no tiene flecha desde los habilitadores, ya que depende
exclusivamente de la estrategia empresarial acordada por los órganos de
gobierno corporativo. En otras palabras, en éste modelo EbM recurrimos a los
habilitadores una vez tenemos claros los objetivos. Esto será vital para permitirnos fijar unos
SLA.
En consecuencia, Big
Data no es un fin en sí mismo, sino un habilitador que permitirá administrar y
gestionar diferentes áreas empresariales de forma más rigurosa en base a
evidencias.
7. BIG
DATA DEBE GESTIONARSE Y GOBERNARSE
Big Data y las técnicas analíticas, aunque es una iniciativa
que surge del y para el negocio, requiere de TI para darle soporte. Debe
integrarse en TI.
Podríamos considerarlo como otro u otros servicios que TI
ofrece a los usuarios que, evidentemente, estarán adscritos y serán aprovechados
por los demás departamentos y áreas funcionales de la empresa.
Por consiguiente, al igual que ésos servicios se gestionan en
base a unas mejores prácticas y se les aplica la parte que les corresponde
dentro de un marco de gobierno corporativo, al Big Data también.
Es imprescindible antes de abordar ésta parte de la ponencia,
poner en común que entendemos por gobernar y que entendemos por gestionar. Ha
de quedar claro que son conceptos muy diferentes.
También decir que el camino u hoja de ruta para ir de la situación actual hacia la visión de futuro que tiene la empresa,
de entre los muchos posibles, es la estrategia.
- Gobernar es asegurar unos objetivos, en base a la estrategia empresarial, a partir de unos recursos determinados y manteniendo el riesgo a niveles aceptables.
- Gestionar es procurar por la eficacia y la eficiencia en los procesos que soportan a los servicios. En éste caso en los procesos de TI que soportan el servicio de Big Data.
Gobierno y Gestión no son capas aisladas, sino que deben dialogar entre ellas. Concretamente:
- La capa de Gobierno se comunica hacia la capa de Gestión elaborando, aprobando y promulgando políticas.
- La capa de Gestión se comunica con la capa de ejecución y operaciones, redactando y proporcionando mapas de procesos y procedimientos de cómo están definidos los procesos y como deben operarse mediante las tareas necesarias para cada actividad en función de una matriz de responsabilidades.
No debe permitirse que
Big Data sea un “silo” más en la empresa. Para ello debe integrarse en la
estructura de procesos de TI.
Cuánto mayor nivel de madurez tengamos en TI, menos
complicado será lograr su integración de forma efectiva.
8.
GOBIERNO DE BIG DATA
8.1. MARCO DE GOBIERNO DE DATOS
Partiremos del “IBM Data Governance Council Maturity Model”
que se trata de un marco para el gobierno genérico de datos que puede ser
también adaptado, con suma facilidad, al gobierno de Big Data.
Se divide en cuatro áreas:
- Los OBJETIVOS, que persigue el marco de gobierno, alineados con los de la propia organización.
- Unos HABILITADORES cuyo nivel de madurez facilitará la aplicación del propio marco de gobierno.
- Unas DISCIPLINAS FUNDAMENTALES que, por consiguiente, tendrán una incidencia directa en la consecución de los objetivos.
- Unas DISCIPLINAS DE APOYO, que también son necesarias.
Podemos ampliarlo diciendo:
Los
objetivos
del marco de gobierno, consisten
en favorecer los resultados
empresariales. Éstos pueden resumirse en dos:
- Obtención de beneficios para todas las partes interesadas (Accionistas, empleados, clientes, proveedores y la sociedad en general, cada parte en su justa medida).
- La permanencia en el tiempo de la empresa.
Recordemos que se gobierna para asegurar unos objetivos, en base a la estrategia
empresarial, a partir de unos recursos.
Los
habilitadores son las
estructuras, y su madurez, de que dispone la empresa:
- Estructuras y conocimiento organizacional (su EA (Arquitectura Empresarial), su Sistema de Gestión basado en procesos con su nivel de madurez y especialmente la Gestión del Conocimiento).
- El sistema de administración de los recursos, ya que hemos visto antes que gobernar es asegurar unos objetivos a partir de unos recursos.
- Gestión del riesgo relacionado con los datos. Hemos visto que se gobierna manteniendo el riesgo a niveles aceptables.
- Políticas. Hemos visto que es mediante ellas que la capa de Gobierno se comunica con la capa de Gestión y si me apuráis con toda la empresa.
Las disciplinas fundamentales para la consecución de los
objetivos son:
- La Gestión de la calidad de los datos.
- La Gestión del ciclo de vida de la información.
- La seguridad y privacidad de la información.
Tampoco deben descuidarse otras disciplinas de apoyo:
- Arquitectura de datos. Trata de la arquitectura que definiremos para los datos de Big Data y de las interfaces con los diferentes orígenes donde los obtendremos.
- Metadatos y clasificación. Los metadatos serán esenciales para preservar los significados contextuales, ya que podríamos definir un metadato como un dato que describe a otro dato. También es importante unificar un diccionario de datos con idénticas definiciones para toda la empresa, asegurando así la consolidación de información proveniente de diferentes orígenes y entre áreas funcionales de la compañía.
- Auditorías de la información. Son la única forma rigurosa que la alta dirección tiene para verificar que el marco de gobierno está funcionando según los objetivos previstos.
8.2.
DISCIPLINAS FUNDAMENTALES
8.2.1.
Gestión de la calidad de los datos
Hay un dicho popular que aplica a la calidad de los datos: “Si a un sistema informático le entra
porquería, también le saldrá porquería”.
Quiere ello decir que la gestión de la calidad de los datos
será sustancial en Big Data y las técnicas analíticas asociadas, cuyo objetivo
final será la toma de decisiones basadas en evidencias extraídas de la
información. Si los datos no son de calidad, las conclusiones tampoco serán
correctas.
NOTA DEL EDITOR: Aunque aquí hablamos de calidad de los datos en sentido
estricto, en Protección de Datos Personales existe el llamado principio de la
Calidad de los Datos que viene a ser un principio de principios. Se trata de
una norma lo suficientemente amplia que incorpora otros principios, normas y
criterios interpretativos que ayudan a determinar cómo se deben recabar, tratar
y ceder (si procede) los datos de carácter personal. Dicho principio exige
exactitud y corrección en los datos. También garantiza el derecho de acceso del
titular a sus propios datos.
Puede
consultarse en el TÍTULO II, Artículo 4. “Calidad de los datos” de la LO
15/1999, de 13 de diciembre, conocida como la LOPD.
Los datos deben ser:
- Íntegros: Especifica que los datos, que deben conciliarse y proceden de múltiples orígenes, no pierdan su integridad (sean completos, precisos y protegidos de cambios no autorizados).
- Completos: Especifica que los datos deben almacenarse sin truncamientos que los desvirtúen y si varios datos son complementarios, deben almacenarse vinculados.
- Actuales: Especifica cuando la información fue dada de alta en el sistema y su posible/probable fecha de prescripción.
- Consistentes: Describe la coherencia lógica de la información.
- Válidos: Confiables y acordes a la situación actual. También describe la credibilidad de la fuente que proporciona el dato.
- Precisos: Describe la exactitud de los datos de entrada independientemente de los orígenes.
Cada uno de estos atributos de calidad, y cualesquiera otros
que podamos definir, tendrán mayor o menor impacto en la consecución de los
objetivos.
Deben establecerse procedimientos para medir y así poder
garantizar el nivel de calidad de los datos.
8.2.2.
Degradación de los datos
Para poder gestionar la calidad de los datos, debemos conocer todo aquello que pueda favorecer su degradación. En la diapositiva 17 podemos ver diferentes limitadores y sus efectos sobre la calidad de los datos.
8.2.3.
Gestión del ciclo de vida de la información
Los datos también están sujetos a un ciclo de vida.
Concretamente:
- Se CREAN
- Se ALMACENAN
- Se USAN
- Se COMPARTEN
- Se ARCHIVAN
- Se DESTRUYEN
Cada fase deberá contar con medidas específicas para
garantizar la seguridad y privacidad
necesarias.
8.2.4.
Seguridad y privacidad de la información
Es intuitivo pensar que un entorno de éstas características
planteará más dificultades que uno tradicional en la preservación de la
seguridad y privacidad.
Para analizarlo nos basaremos en el documento publicado por
la CSA (Cloud Security Alliance) titulado “Top ten Big Data security and privacy
challenges” que traducido significa los 10 principales retos de privacidad y
seguridad de Big Data.
En él se plantean cuatro dominios de actuación:
- Seguridad de la Infraestructura
- Privacidad de los datos
- Gestión de los datos
- Integridad y seguridad reactiva
8.2.4.1.
Seguridad de la Infraestructura
En relación a la seguridad de la infraestructura, hemos de
tener en cuenta que la mayoría de soluciones se plantean mediante una
estructura de almacenamiento y entornos de programación distribuidos.
Como ejemplo veamos el flujo de trabajo típico mediante
Hadoop:
Se cargan los datos hacia el cluster de nodos (escrituras HDFS – Hadoop File System)
- Se analizan los datos (Map Reduce)
- Se almacenan los resultados en el cluster de nodos (escrituras HDFS)
- Se leen los resultados del cluster (lecturas HDFS)
8.2.4.2.
Privacidad de los datos
Cuando hablamos de privacidad debemos centrarnos en los datos
de naturaleza personal.
Es imprescindible una clasificación de los mismos en función de
su nivel de sensibilidad y dotarles de las medidas de seguridad adecuadas, como
se recoge en el título VIII (De las medidas de seguridad en el tratamiento) del
RD 1720/2007, de 21 de diciembre y que es el Reglamento de desarrollo de la LO
15/1999, de 13 de diciembre de protección de datos de carácter personal.
Hay dos puntos de riesgo relacionados con la privacidad en el
Big Data:
·
Por
un lado la posibilidad de obtener
detallados perfiles de conducta de las personas en base al análisis
continuado, a través de Internet de aspectos relacionados con la interacción de
los afectados, por ejemplo, en las diferentes redes sociales.
·
Por
otro, permitir el acceso granular a la
información almacenada en Big Data, sin los oportunos controles de
confidencialidad o de anonimización de contenidos.
El principio de
limitación de la finalidad es uno de los más delicados en relación al Big
Data. Paso a transcribir la traducción de parte de un comunicado de prensa del
GT29 (Grupo consultivo de privacidad europeo conocido como “del artículo 29”) publicado
en Bruselas, el 8 de abril de 2013:
“Las autoridades europeas de protección de datos
clarifican el principio de limitación de la finalidad, reconociendo que protege
a los interesados mediante el establecimiento de límites en el recabado y
posterior tratamiento de sus datos.
Cuando una persona proporciona sus datos personales a una
empresa u otra organización, usualmente tiene ciertas expectativas acerca de la
finalidad para la que sus datos serán utilizados. Hay un valor en honor a estas
expectativas que es la preservación de la confianza y la seguridad jurídica.
Por ello, el principio de limitación de la finalidad es una piedra angular de
la protección de datos.
No obstante, los datos que ya han sido recogidos pueden
ser realmente útiles para otros propósitos, que no han sido previstos inicialmente.
Por lo tanto, también hay valor en permitir, dentro de límites cuidadosamente
equilibrados, un cierto grado de uso adicional.
El principio de
limitación de la finalidad está diseñado para ofrecer un enfoque equilibrado:
- Por un lado tiene como objetivo conciliar la necesidad de la previsibilidad y la seguridad jurídica en relación con los fines del tratamiento.
- Por otro lado, la necesidad pragmática de proporcionar flexibilidad”.
Otro de los limitadores a la privacidad es, por la propia
naturaleza de Big Data, la dificultad
creciente de dar ágil cumplimiento a los derechos ARCO (Acceso,
Rectificación, Cancelación y Oposición) de los afectados por dichos
tratamientos, según el título III (Derechos
de acceso, rectificación, cancelación y oposición) del RD 1720/2007, de 21 de
diciembre y que es el Reglamento de desarrollo de la LO 15/1999, de 13 de
diciembre de protección de datos de carácter personal.
8.2.4.3.
Gestión de los datos
En relación al volumen:
En las arquitecturas de Big Data los datos y los registros de
transacciones se almacenan en medios de almacenamiento de múltiples niveles,
normalmente constituidos en clusters por el sistema.
Tradicionalmente existía un movimiento planificado de los
datos entre los diferentes niveles y tipos de almacenamiento de TI. El
resultado era un control directo y exacto de TI sobre qué datos se mueven,
dónde y cuándo.
Sin embargo, como en Big Data el tamaño del conjunto de datos
no para de crecer de manera exponencial, en muchos casos para asegurar la
escalabilidad y la disponibilidad se ha hecho necesario el auto-escalado (escalado
automático) para su gestión.
Soluciones de auto-escalado no mantienen un registro de dónde
se almacenan los datos, lo que plantea nuevos retos para asegurar el
almacenamiento. Nuevos mecanismos son fundamentales para impedir el acceso no
autorizado (confidencialidad), manteniendo
el sistema en modo 24/7 (disponibilidad).
En relación a la
variedad:
No solo las dificultades de control están asociadas al
volumen de los datos, sino también a la variedad. La posibilidad de recabar datos de múltiples
orígenes, distintos y dispersos, obliga a velar por su seguridad desde que se
obtienen hasta que se utilizan, pasando por dónde se almacenan. En pocas
palabras, a lo largo de todo su ciclo de vida.
Auditoría y control:
Las auditorías granulares, extremo a extremo, serán una buena
práctica para detectar brechas en la seguridad de los datos tratados por los
sistemas que soportan a Big Data.
8.2.4.3.
Integridad y seguridad reactiva
Las validaciones y filtrados automáticos de “punto final”
serán una eficaz medida para evitar el acceso a información sensible, con
independencia de la lógica empleada en los “programas” de análisis y de sus
posibles fallos.
Siguiendo la línea de la PbD (Privacidad desde el Diseño), y
en base a un PIA (Análisis de Impacto en la Privacidad) donde se analizan los riesgos asociados con
la privacidad, deberán implementarse las medidas que ayuden a mitigarlos a
niveles aceptables.
Aunque la mejor garantía, como ocurre en cualquier sistema de
gestión de la seguridad, es la formación y concienciación de todas las personas
intervinientes en el ciclo de vida de los datos (incluyendo quienes han de recibir
los resultados de los análisis), junto a unos procedimientos de registro,
comunicación y respuesta ante incidentes de seguridad.
La monitorización de la seguridad en tiempo real también será
una buena práctica en los sistemas de Big Data, donde el volumen de los logs
puede hacer que éstos sean intratables de forma manual.
9.
GESTIÓN DE BIG DATA
Big Data y las técnicas analíticas no dejan de ser alguno de
los servicios que proporciona TI a la organización. Por consiguiente, estarán
integrados a la estructura de procesos de TI.
Estudiaremos aquí, sin embargo, aquellos procesos más
significativos dadas las peculiaridades de Big Data, desde el punto de vista de
la Norma ISO/IEC 20000-1:2011 y de COBIT 5.
9.1.
Gestión de la capacidad y de la disponibilidad
Gestionar la capacidad y la disponibilidad manejando
volúmenes ingentes de datos con crecimiento exponencial no es tarea fácil, pero
resulta imprescindible para atender eficaz y eficientemente las necesidades de información del negocio.
9.2.
Gestión del nivel de servicio
La certificación ISO 20000-1 acredita la provisión de
servicios de Big Data con una calidad constante, según se hayan acordado en los
SLAs (Acuerdos de Nivel de Servicio), pese a su variabilidad en volumen.
9.3.
Gestión del riesgo y de la seguridad
Si bien la seguridad de la Información ha de estar presente
en todos los procesos del negocio, en entornos de Big Data el volumen, la
variedad y la dispersión de los datos dificultan la gestión de la seguridad.
Debe velarse por preservar los siguientes atributos de la
información tratada en el Big Data:
- DISPONIBILIDAD: Garantizar que la información
esté disponible y se pueda usar cuando se necesite.
- CONFIDENCIALIDAD: Garantizar que la información
esté disponible exclusivamente para personas autorizadas.
- INTEGRIDAD: Garantizar que la información
sea completa, precisa y protegida contra cambios no autorizados.
Es intuitivo que a mayor complejidad y volumen de la
información, más difícil será protegerla de forma adecuada y proporcional al
valor de la misma y a la evaluación de los riesgos asociados en base a:
· Amenazas
· Vulnerabilidades
· Impacto para el negocio
9.4.
Gestión de las relaciones con el negocio
Es importante entender que Big Data no es una iniciativa
surgida del área de TI, sino del Negocio.
TI tiene que limitarse a gestionarlo como un servicio más y
darle soporte tecnológico. Acordará un nivel de servicio en base a los
requerimientos del Negocio. Por tanto costes y beneficios deberían estar
pactados.
Lo que las empresas quieren es conocer mejor a sus clientes, las
financieras solucionar temas de fraude y riesgo financiero, las
Administraciones Públicas quieren saber cómo están funcionando los servicios al
ciudadano…
Big Data está liderado desde el Negocio, aunque corresponda a
TI proporcionarles soporte en Infraestructura y Software. En consecuencia las
relaciones con todas las áreas del negocio serán sustanciales.
9.5.
Gestión financiera (Presupuesto y contabilidad de servicios)
El crecimiento exponencial de los datos, los múltiples
orígenes, la variedad de formatos, las consultas analíticas con determinado
nivel de rendimiento, la infraestructura creciente…. Provoca que deba hacerse una previsión
presupuestaria lo más afinada posible, a la vez que dotar de los mecanismos de
auditoría para detectar a tiempo las desviaciones y la tendencia.
10. ROLES
RELACIONADOS CON BIG DATA
10.1.1. Big
Data Manager (Gestor)
Se trata del gestor del/los servicio/s de Big Data. Normalmente
gestiona y coordina al equipo constituido por científicos, analistas y
visualizadores, pudiendo incluir a administradores e higienistas de datos.
10.1.2.
Big Data Scientist (Científico de Datos)
Una vez capturados los datos desde determinados orígenes, el
científico de datos debe involucrarse en ayudar a preparar los datos para ser
utilizados cuando se precisen y sea posible. Puede incluso no saber las
preguntas pertinentes a hacer sobre los datos antes de su análisis, ya que algunos
de sus más valiosos descubrimientos destaparán estas preguntas.
Suele crear sofisticados modelos analíticos (estadísticos y
predictivos) que aplicará sobre grandes conjuntos de datos en bruto para
obtener conclusiones.
10.1.3. Big
Data Analyst / Explorer (Analista de datos)
El Explorador de datos está más interesado en el
descubrimiento iterativo a partir de conjuntos de datos concretos y más
elaborados (aunque no siempre se disponen organizados de la mejor forma para
tratarlos), que son más adecuados para tomar decisiones de negocio.
El explorador es por lo general más apropiado que el
científico para poder ayudar a responder a las preguntas predefinidas del
negocio, mediante herramientas analíticas y de presentación de informes que le permiten
acceder, investigar y analizar los datos.
10.1.4. Big
Data Visualizer (Visualizador)
Hoy en día, la mayoría de quienes toman decisiones lo hacen
basándose en la información que se les presenta en un formato muy visual (ya
sea en cuadros de mando con alertas de colores y "diales", o mediante
tablas y gráficos que se puedan entender fácilmente). Las organizaciones
necesitan profesionales que puedan aprovechar los datos poniéndolos en
contexto, usando representaciones intuitivas y un lenguaje común que ayuden a
comprender lo que significan los datos y cómo afectarán a la compañía.
10.2.
Específicos de infraestructura
10.2.1.
Big Data Solutions Architect (Arquitecto de soluciones)
Las organizaciones que manejan Big Data necesitan
profesionales que sean capaces de definir arquitecturas de datos y planear un esquema
de cómo y cuándo diversos orígenes de datos y las herramientas analíticas
estarán en línea, y cómo todas encajarán.
10.2.2. Big
Data engineer (Ingeniero de sistemas)
Estas son las personas que diseñan la gran infraestructura, que
soportará los datos y sus tratamientos, según los requerimientos del negocio y
además hacen que funcione sin problemas en el día a día.
10.3. De
calidad de datos
10.3.1.
Big Data Steward (Administrador)
Cada byte de datos a lo largo de la empresa debe pertenecer a
alguien. Idealmente a una línea de negocio. Los administradores de datos se
aseguran que las fuentes de datos sean debidamente contabilizadas y también
pueden mantener un repositorio centralizado como parte de la gestión de un
repositorio de datos maestros, en el cual hay una “gold copy” de los datos
empresariales a ser referenciados.
10.3.2. Big
Data Hygienist (Higienista)
Su cometido es asegurarse
de que los datos que entran en el sistema sean íntegros, y se mantengan con el
adecuado nivel de calidad durante todo el ciclo de vida. Todos los valores de
los datos tienen que tener mismo formato para que las comparaciones sean posibles.
Esta limpieza de datos comienza en el origen, donde los datos se capturan inicialmente,
e involucra a todos los miembros del equipo que tocan los datos en cualquier fase
de los procesos.
10.4. De
seguridad y privacidad
10.4.1.
CISO (Chief Information Security Officer)
El CISO no es un rol de Big Data, sino que existe en las
organizaciones con el objetivo de asegurar la información empresarial. Entre
sus atribuciones está la de supervisar el SGSI (Sistema de Gestión de la
Seguridad de la Información, asesorar a los órganos de Gobierno corporativo
sobre las políticas que deban aprobarse más adecuadas a la realidad de la
seguridad de datos de la empresa y, caso de no existir un DPO, velar por el
cumplimiento regulatorio en materia de
protección de datos.
10.4.2. DPO
(Data Protection Officer)
Tampoco es un rol específico para Big Data. Su función es
velar por el cumplimiento regulatorio en materia de protección de datos de la
organización.
El borrador del nuevo RGPDUE (Reglamento general de
protección de datos de la Unión Europea) lo contempla como una figura clave,
que incluso podría ser obligatoria en grandes empresas y en aquellas que se
justifique por el tipo de tratamientos que realicen con datos de naturaleza
personal.
11.
BIBLIOGRAFÍA RECOMENDADA
- Bernard
Marr. “The Intelligent Company” – Five steps to success with
Evidence-Based Management. 2010. John
Wiley & Sons Ltd.
- Sunil
Soares. “Big Data Governance” – An Emerging Imperative. October
2012. MC Press Online, LLC.
- ARTICLE 29 DATA PROTECTION WORKING PARTY. “Opinion 03/2013 on purpose limitation”. 2 April
2013. 00569/13/EN.
WP203 Limitación de finalidad
- CSA (Cloud Security Alliance). “Top Ten Big
Data Security and Privacy Challenges”. November 2012.
CSA Top Ten
- ISACA. “Privacy & Big Data – An ISACA White paper”. August 2013.
ISACA White paper
- José Luis Colom. “Big Data, BDaaS y privacidad”. Febrero 2013. Blog “Aspectos Profesionales”.
Artículo de Big Data
12.
DERECHOS DE AUTOR
Imágenes bajo licencia 123RF
internacional. La licencia únicamente es válida para su publicación en este
blog.
La presente obra y su título
están protegidos por el derecho de autor. Las denominadas obras derivadas, es
decir, aquellas que son el resultado de la transformación de ésta para generar
otras basadas en ella, también se ven afectadas por dicho derecho.
Sobre
el autor:
José Luis Colom Planas Posee
un doble perfil, jurídico y técnico, que le facilita el desempeño profesional
en el ámbito de los diferentes marcos normativos, especialmente del Derecho de
las nuevas tecnologías y las normas ISO de adscripción voluntaria.
A
nivel de especialización jurídica, ha realizado el postgrado
de Especialista Universitario en Protección de Datos y Privacidad en la
Facultad de Derecho de la Universidad de Murcia, disponiendo de la
certificación CDPP (Certified Data
Privacy Professional) del ISMS Fórum Spain. También ha cursado el programa
superior de Compliance Officer (Controller jurídico) en la Escuela Legal WKE y
se ha especializado respecto a los delitos de blanqueo de capitales en la UOC,
en colaboración con el Ilustre Colegio de Abogados de Barcelona (ICAB). Es
experto externo en prevención de blanqueo de capitales, certificado por INBLAC.
A
nivel de especialización técnica, ha cursado Ingeniería
técnica de Telecomunicaciones en “la Salle BCN” estando adscrito a la AEGITT
(Asociación Española de Graduados e Ingenieros Técnicos de Telecomunicación). Es
Auditor e Implantador de SGSI (Gestión de la Seguridad de la Información) por
AENOR (Asociación Española de Certificación y Normalización). Leader Auditor & Implanter ISO 27001 e ISO 22301
by BSI (British Standards Institution). Auditor del esquema de
certificación STAR para prestadores de servicios de Cloud Computing (BSI +
Cloud Security Alliance). Ha obtenido la certificación internacional CISA
(Certified Information Systems Auditor) by ISACA (Information Systems Audit and
Control Association). Dispone de las certificaciones ISO 20000 PMI (Process
Management Improvement) e ITIL Service Management by EXIN (Examination
Institute for Information Science).
Desempeña su labor
profesional en GOVERTIS Advisory Services
cómo Compliance, Management & IT Advisor, incidiendo en Compliance
Penal, PBCyFT, asesoramiento respecto a cumplimiento normativo, privacidad
y gestión de la seguridad de la información. Ha participado como lead implementer y lead auditor de diferentes sistemas de gestión basados en Normas
ISO, individuales o integrados, y en la optimización de sus procesos. Ha
realizado diferentes niveles de auditorías de cumplimiento legal ya sea para
organizaciones sujetas a Derecho público o privado.
También colabora con BSI como
auditor jefe de certificación e impartiendo formación para la obtención de la
certificación de lead auditor, en diferentes marcos normativos. A partir de su
dilatada experiencia, edita el Blog temático “Aspectos Profesionales”.
Convencido del valor que
aportan las organizaciones profesionales, es asociado sénior de la APEP
(Asociación Profesional Española de Privacidad), miembro de ISACA
(Information Systems Audit and Control Association), miembro de ISMS Forum
Spain (Asociación Española para el Fomento de la Seguridad de la
Información), miembro de itSMF (IT Service Management Forum), ATI (Asociación
de Técnicos de Informática), ENATIC (Asociación de expertos nacionales
de la abogacía TIC), CUMPLEN (Asociación de Profesionales de
Cumplimiento Normativo) y asociado de INBLAC (Instituto
de expertos en prevención del Blanqueo de Capitales), habiendo sido
ponente o colaborado en casi todas las referidas organizaciones. También lo es
de la iniciativa del Observatorio Iberoamericano de Protección de Datos (OIPRODAT)
habiendo obtenido, junto a algunos colaboradores del mismo, un premio
compartido otorgado por la AEPD.
Twittear
No hay comentarios:
Publicar un comentario
Nota: solo los miembros de este blog pueden publicar comentarios.