Edwin Alvarado Mena
6 de marzo 2023

Aprender Ciencia de Datos en Centroamérica

University of Arizona donde el autor cursa sus estudios.

Recientemente publiqué un ebook de programación orientada a Ciencia de Datos: R pre-introductorio. R es el único lenguaje de programación especializado en análisis estadístico. Le dediqué todo un ebook pues considero que popularizar estas habilidades computacionales puede tener un efecto transformador en nuestras sociedades.

El interés por estos temas es creciente. Es normal que así sea, si consideramos que ahora todo el mundo pasa hablando de Big data y esas cosas. Últimamente, y por las mismas razones, también se ha estado hablando mucho de Ciencia de Datos, y con Ciencia de Datos parecen referirse al oficio de quienes trabajan con Big data. La buena prensa que ha atraído esta profesión se paga al precio de numerosas imprecisiones sobre ella misma y sobre qué significa esto de vivir en una era en la que los datos han cobrado máxima relevancia social.

En la actualidad tenemos a nuestra disposición más datos de los que podemos analizar y bastante menos de los que quisiéramos realmente. Tal como lo ha advertido Gary King, la idea de Big data que inunda los medios de comunicación suele pasar por alto que los datos no son -ni remotamente- lo más importante: primero, porque datos casi siempre hemos tenido en abundancia; segundo, porque si bien ahora contamos con muchos más, esta explosión de datos se debe en mayor parte a procesos casuales, procesos que generaron datos casi como efecto colateral de actividades comerciales y sin el soporte de un diseño de investigación que nos garantice que son materia prima de calidad. 

Lo que realmente ha cambiado en nuestro momento histórico, señala Gary King, es la capacidad humana de ingeniar algoritmos estadísticos que, una vez combinados con el poder de cómputo de nuestro tiempo, hacen posible extraer información precisa, relevante y significativa de una sopa de datos que de otro modo no nos serviría de nada. Esa evolución estadística y computacional es la que sí constituye tremendo suceso.

Recibe nuestro boletín semanal

El interés por estos temas es creciente, dije, y mucha gente ha intentado incursionar en el campo. Pasado el entusiasmo inicial, el despegue moral típico de la primera vez que intentamos algo nuevo, una persona promedio que desee aprender Ciencia de Datos se acabará topando con los tres demonios de la educación pública del subdesarrollo: matemática, inglés y programación. 

Sí, aprender Ciencia de Datos requiere desarrollar destrezas computacionales, familiarizarse con ciertas ramas de la matemática, y perderle el miedo al inglés ya que prácticamente todos los materiales de consulta están escritos en ese idioma. Pero ni la matemática, ni el inglés, ni la programación son metas inalcanzables, y considero además que este proceso de aprendizaje puede ser bastante placentero y auto-motivante siempre que uno lo arranque con la orientación adecuada.

Mis recomendaciones para aprender los fundamentos de la Ciencia de Datos las dividiré por especialidad:

  • Matemática: para ser honesto, no estoy muy al tanto de libros de matemática en español, pero sé que Estadística Matemática de Wackerly, Mendenhall y Sheaffer se puede conseguir en línea (en inglés y mucho más atinente a nuestro caso, me gusta A Mathematics Course for Political and Social Research, de Moore y Siegel); hay excelentes YouTubers -en serio excelentes, excelsos-, como Profe Alex y Julio Profe, que llevan años popularizando la matemática en América Latina.
  • Inglés: Essential Grammar in Use de Raymond Murphy es un material precioso, un libro dividido en unidades temáticas con ejercicios; cada unidad cuenta con sólo dos páginas, estrictamente dos páginas, para que completar al menos una unidad al día no le dé margen de excusas a nadie; combinado con todo el archivo audiovisual de engvid.com, este libro puede recompensar el esfuerzo con un aprendizaje espectacular del inglés.
  • Programación (en R): R pre-introductorio es un buen sparring antes de enfrentarse a R para Ciencia de Datos, el canónico libro de Hadley Wickham, el mejor de todos; llegados a este punto, los conocimientos en matemática, inglés y programación serán óptimos para estudiar obras en inglés más avanzadas, como las que reseño aquí.

R pre-introductorio intenta transmitir el vocabulario necesario para que la incursión en esta área profesional no sea un trauma más. Es menos que una introducción a R: está diseñado para personas que nunca antes han programado. Está escrito en español. Es gratis porque es servicio. Siendo yo un centroamericano que gozó de la rara oportunidad de cursar un doctorado en Estados Unidos, siento la responsabilidad de trasladar todo el conocimiento que pueda a Centroamérica, mi mundo. Lo considero así, una responsabilidad, no porque esté arrogantemente convencido de que Estados Unidos goza del mejor sistema universitario del planeta (que sí, lo estoy) sino por algo aún más fundamental: a casi nadie le sobra tanto tiempo en la vida como para prolongar su educación hasta el PhD, y si a mí me sobró ha sido porque las acciones de mucha gente buena en mi país centroamericano me lo hizo fácil. 

Sobran las razones para impulsar la Ciencia de Datos en Centroamérica. Aprender Ciencia de Datos no sólo mejora los horizontes laborales de las personas, también agudiza su pensamiento y toma de decisiones. La Ciencia de Datos puede mejorar dramáticamente el nivel de nuestras universidades (particularmente en mi área, las ciencias sociales, cuyo estándar metodológico necesita una revolución). Por la vía del esfuerzo hormiga de muchas personas haciendo lo mismo todos los días, la Ciencia de Datos podría incluso crear una cultura de datos abiertos, y, a su vez, tal disposición colectiva podría avivar la apertura de los gobiernos hacia la rendición de cuentas. Una nueva generación de burócratas y policy-makers con adiestramiento en Ciencia de Datos podría tener mejor instalada en su cabeza la importancia de velar por la calidad de las políticas públicas. La suma de los efectos anteriores podría causar que el nivel promedio de la discusión pública se beneficie a un grado insospechado.

Ahora bien, tampoco quiero mentir. Todo lo que afirmé arriba lleva un carácter meramente potencial. Popularizar habilidades en Ciencia de Datos sí mejorará nuestra comprensión sobre los problemas estructurales de nuestras sociedades y sobre dinámicas sociales específicas, pero en modo alguno nos dará las llaves del desarrollo económico o de la gobernabilidad democrática.

La Ciencia de Datos se caracteriza por la búsqueda constante del mejor resultado posible. Nos obsesiona producir el modelo que mejor explica la relación entre unas variables, el modelo que mejor predice un evento, el código que ejecuta una serie de algoritmos pesados en el menor tiempo posible. El problema es que la política no es sobre la eficiencia. La política es sobre el poder. Porque la realidad es como es y no como uno la imagina, en el mundo real es bastante frecuente que el diseño de política pública acabe en resultados que son subóptimos socialmente y que prevalecen a lo largo del tiempo por la sóla razón de que benefician el interés particular y pequeño de algún actor bien conectado.

La contribución más probable de la Ciencia de Datos es suministrar más y mejor información a la sociedad civil. ¿Cuánto podrán estos insumos deshacer los equilibrios perversos de la política pública? Hoy, a mí, no me pidan optimismo. Las grandes transformaciones necesitan datos, pero más necesitan acción colectiva.

ESCRIBE

Edwin Alvarado Mena

Politólogo costarricense. Actualmente cursa su PhD en la Universidad de Arizona, EE.UU. Ha sido profesor de la Universidad de Costa Rica, el Instituto Centroamericano de Administración Pública y la Facultad Latinoamericana de Ciencias Sociales (FLACSO). Ex asesor del Gobierno de la República de Costa Rica (2016-2021).