Entrevista con Ken Sanford: Uniendo a analistas, ingenieros y gente de negocio para entregar analítica transparente

A continuación compartimos una entrevista con el Dr. Kenneth Sanford, Arquitecto en Jefe de Analítica en la empresa Dataiku. Esta empresa ha construido Dataiku Data Science Studio, una plataforma para equipos de datos que permite a las empresas construir y entregar sus propios productos de datos de manera eficiente.

Estudios de Gartner e IDC reportan que una de las causas más comunes de falla en proyectos de Data Science es que se originan en la oficina del CTO. Cómo es que Data Science STudio (DSS) contribuye a reconciliar la Ciencia de Datos con la Ingeniería de Datos?

Las fallas de los proyectos de ciencia de datos no se deben a la oficina donde se origina, sino a una mezcla de varios factores entre los que destaca: poca claridad sobre las metas de negocio, carencia de un mapa de ruta, y carencia de infraestructura que promueva mejores prácticas. Otra causa común son los problemas de comunicación derivados de tener que integrar varias personas para reunir el conjunto de habilidades requeridas, ya que es muy difícil encontrar a científicos de datos que dominen algoritmos de machine learning, sean buenos programadores y sepan optimizar infraestructura de cómputo; así que los equipos de ciencia de datos típicamente integran programadores y matemáticos, que frecuentemente están geográficamente distribuidos, y encima de eso tienen alta rotación.

Este contexto requiere herramientas que faciliten la colaboración, guíen al equipo en la ejecución del proyecto y aprovechen las habilidades de cada integrante.

¿Consideras que el área de TI debería estar a cargo de toda la infraestructura analítica, tal como data warehouses, pipelines e incluso modelos operativos de machine learning?

Sí. Aunque la ciencia de datos responde preguntas de negocios, los artefactos finales que se producen son software, y el software requiere consideraciones de disponibilidad, latencia, seguridad, etcétera. El equipo de TI tiene experiencia lidiando con estos atributos, que están fuera de las funciones de los analistas.

Aclaro que no creo que la respuesta sea que las áreas de TI tengan un rol preponderante en el negocio, sino que las áreas de negocio deben acercarse a la tecnología. Cuando esto último sucede, es cuando realmente se da la transformación del negocio y emerge analítica transparente. Herramientas como DSS contribuyen a lograr esto, automatizando tareas de los analistas para permitirles acercarse al negocio.

¿Cómo se puede recortar la brecha existente entre los equipos de negocio y ciencia de datos?

El equipo directivo necesita unirse y apoyar de manera conjunta las iniciativas de datos. No es fácil ya que al principio seguramente habrá algunos que quieran tener protagonismo, pero con un liderazgo adecuado se puede lograr.

Has comentado que uno de los retos de los negocios en cuanto a ciencia de datos es lograr el “aprendizaje en línea”, ¿podrías explicar cómo difiere esto del procesamiento de corrientes (stream processing)?

El procesamiento en tiempo real involucra recibir datos, hacer una predicción en el momento –como una detección de fraude– y generar una clasificación inmediata. En cambio, el aprendizaje en línea implica que el modelo se está reentrenando al mismo tiempo que se procesan las transacciones. Esto involucra una solución con mayor complejidad y requerimientos de infraestructura de cómputo que no se justifican para la mayoría de los casos, pero puede haber algunos casos donde sí se justifica.

Teniendo en cuenta el Diagrama de Venn para Ciencia de Datos propuesto por Drew Conway, ¿le harías algún ajuste?

En gran parte, estoy de acuerdo con el diagrama. Sin embargo, yo agregaría un conjunto adicional proveniente de las ciencias sociales cuantitativas, tales como la econometría, finanzas, marketing, etcétera. Las personas de este campo tienen un buen entendimiento del proceso de generación de datos, es decir el conjunto de actividades e interacciones humanas que finalmente se convierten en datos.  Contar con esta comprensión puede evitar que las empresas cometan graves errores en sus estrategias de analítica de datos. Por ejemplo, si analizamos las ventas del Amazon Echo en la temporada navideña de 2016, veremos que en las primeras semanas de diciembre se vendieron miles de unidades, pero del 22 al 29 de diciembre las ventas bajaron muchísimo; un analista que no tenga la información completa podría pensar que faltó hacer mayor promoción, pero en realidad lo que sucedió es que esos días no había inventario de Echo en las bodegas de Amazon, estaba agotado. Así que necesitamos contar con la perspectiva del proceso completo de generación de datos para evitar errores en nuestro análisis.

Mexico produce anualmente decenas de miles de egresados de carreras de tecnologías de información, pero apenas unos cuantos cientos de matemáticos, físicos y actuarios. ¿Consideras que esto es suficiente para conjuntar equipos de ciencia de datos que satisfagan las necesidades de la industria?

Tal como expliqué anteriormente, los equipos de ciencia de datos típicamente tienen una composición heterogénea, integrando personas con distintas habilidades y formación.

Específicamente en el caso de México, creo que tienen una gran oportunidad para atender la escasez de ingenieros de datos que hay en todo el mundo. Y por medio del uso de herramientas adecuadas pueden colaborar fácilmente con equipos distribuidos geográficamente.