Definiendo “Ciencia de Datos”

Publicado en

Ahora todo es llamado “big data” y “ciencia de datos”. El problema es que no contamos con definiciones claras y comprobables.

Se han realizado intentos para definir estos conceptos, en el caso de big data acostumbra mencionarse a las 3 Vs (volumen, variedad y velocidad), y en el caso de la ciencia de datos es común encontrarse con este diagrama.

El problema es que estas definiciones son abiertas; nombran algunos ejemplos (como el volumen), pero esencialmente dejan abierta la posibilidad de llamar cualquier cosa “big data” o “ciencia de datos”. Esto no es de sorpender, ya que a fin de cuentas son términos creados con propósitos de marketing.

Si alguna vez queremos llegar a una definición utilizable y deshacernos de todo el despliegue publicitario, debemos considerar una definición más precisa, inclusive cuando esto signifique hacerlo más exclusivo.

Big Data:

  • Debe involucrar cómputo distribuido en múltiples servidores.
  • Debe entremezclar gestión y procesamiento de datos.
  • Debe ir más allá de las bases de datos relacionales y data warehouses.
  • Debe permitir resultados que no estaban disponibles con los enfoques anteriores, o que llevarían sustancialmente mucho más tiempo (tiempo de ejecución o latencia).

Ciencia de Datos:

  • Debe involucrar conocimientos de uno o más dominios (por ejemplo finanzas, medicina o geología).
  • Debe tomar en cuenta aspectos computacionales.
  • Debe incluir técnicas científicas tales como la prueba de hipótesis y la validación de resultados.
  • Los resultados deben ser confiables.
  • Debería involucrar más matemáticas y estadísticas que los enfoques anteriores.
  • Debería incluir el aprendizaje automatizado (machine learning), inteligencia artificial o algoritmos de descubrimiento de conocimiento (knowledge discovery).
  • Debería implicar la visualización y creación rápida de prototipos para el desarrollo de software.
  • Debe satisfacer al menos uno de estos deberes en un nivel perturbador.

Pero todo esto está muy lejos de una definición adecuada, en parte debido al gran dinamismo que hay alrededor de estos conceptos.

Hay una gran cantidad de traslape que debemos tratar de comprender. Por ejemplo, la ciencia de datos no es sólo estadística porque está mucho más preocupada por cómo se estructura la información y cómo hacer el procesamiento de datos con mayor eficiencia computacional. Sin embargo, a menudo la estadística es mucho mejor para tomar en cuenta el conocimiento del dominio. En cambio, las personas procedentes del área de computación por lo general se preocupan muy poco sobre el conocimiento del dominio y la confiabilidad de sus resultados, son felices con lograr que los datos sean procesados.

Por último, pero no menos importante, pocas personas estarán a favor de una definición tan acotada y estricta. Porque esto implicaría que muchos tendrían que eliminar ese título de “científico de datos “ en su tarjeta de presentación - ¿y para qué morder la mano que nos alimenta? En mi caso, la mayor parte de lo que hago estrictamente no califica como "big data". Y aunque esto no disminuya el valor de mi trabajo, sí lo hace menos comercializables.

Esencialmente, esto es como un “acuerdo entre caballeros“ global: explotemos estas palabras mientras podamos, y luego pasamos a las siguientes.

Tal vez lo que deberíamos hacer es dejar estos términos a la gente de marketing para que los inflen hasta que exploten. En su lugar, deberíamos atenernos a los términos establecidos y mejor definidos:

  • Cuando hagamos estadística, llamémosla estadística.
  • Cuando hagamos aprendizaje no supervisado, llamémosle aprendizaje automático.
  • Cuando nuestro enfoque es cómputo distribuido, llamémosle cómputo distribuido.
  • Sigamos llamando gestión de datos a la gestión de datos.

En fin, lo que sea que hagas, utiliza el término preciso.

Por supuesto, en ocasiones tendremos que entrar en el juego del "buzzword bingo", no podemos evitarlo. Pero cuando podamos, seamos más precisos.

También debemos ser más cuidadosos con el uso del adjetivo "disruptivo". Mientras lo que hagamos sea “negocios como de costumbre “, y se base en software disponible comercialmente, no va a ser disruptivo. En realidad, lo que buscan las empresas no es big data ni ciencia de datos. Lo que buscan son resultados disruptivos, lo cual requiere hacer las cosas de manera radicalmente distinta.

Bio

Eric W. Schubert estudió Matemáticas y Ciencias de la Computación en la Universidad de Munich. Sus intereses están en el campo de la estructura y naturaleza de la información y el conocimiento por lo que la mayoría de sus proyectos, investigaciones
y temas de docencia pertenecen a dicha categoría.