«Machine learning: sus luces y sus sombras», Juan Jesús Alcolea #frentealespejo

Juan-Alcolea-frentealespejo

El aprendizaje automático o machine learning engloba multitud de técnicas y tecnologías capaces de descubrir relaciones en conjuntos enormes de datos. Relaciones que serían imposibles o muy costosas de identificar para un analista humano.

Existen dos motivos que explican el interés mediático en esta disciplina: el primero es que se trata de la disciplina que está detrás de lo que comúnmente se denomina inteligencia artificial (IA), que en el fondo no es más ni menos que aprendizaje automático aplicado; el segundo es que el uso cada vez más generalizado de estas técnicas está revelando algunas zonas oscuras, que llevan aparejada una carga de polémica importante.

Se trata de una única disciplina, aunque en su seno existe una gran diversidad de técnicas. La magia del aprendizaje automático consiste en que, sin darle ninguna directriz específica, simplemente mediante la observación de los casos resueltos, el sistema será capaz de detectar qué características son las que debe valorar, y desarrollará de forma automática una lógica que le permitirá, en adelante, discernir correctamente entre acierto y error.

Por otro lado, las técnicas de aprendizaje no supervisado no necesitan ese entrenamiento previo, ya que su uso es más exploratorio. Es decir, se usan fundamentalmente para descubrir relaciones y estructuras ocultas en conjuntos de datos.

Bien, pues el campo de aplicación de estas técnicas es enorme. En la actualidad ya podemos decir que se trata de una tecnología de uso cotidiano. Desde la recomendación de productos de Amazon, pasando por la detección automática de spam del servicio de correo, o la detección facial de los nuevos iPhone. Sin embargo, si he de señalar un caso de uso “estrella”, yo diría que los modelos predictivos se llevan la palma: tratar de averiguar qué va a pasar, partiendo de una serie de datos que describen una situación. Se trata de un caso específico de aprendizaje supervisado, donde lo que el sistema aprende es cómo eran esos datos que describen la situación cuando el suceso que se quiere predecir ocurrió en el pasado.

«El ‘machine learning’ lo aplica Amazon al recomendar y el iPhone para detectar rostros»

El ejemplo prototípico es predecir la posible pérdida de un cliente para poder evitarla, pero existen otros más ingeniosos. Nosotros, por ejemplo, los aplicamos para detectar de forma temprana estudiantes universitarios en riesgo de abandono, de forma que se les pueda apoyar y tratar de evitar que dejen sus estudios.

El caso es que, como sucede con todas las tecnologías, el primer problema es que pueden usarse inmoralmente de forma intencionada. Sin embargo, no es esto lo que está generando la polémica sino –por extraño que pueda parecer– su uso inadvertidamente inmoral. A mi juicio, las inquietudes son legítimas y provienen, fundamentalmente, de dos problemas relacionados entre sí: la opacidad de algunos algoritmos y el aprendizaje de rasgos inmorales.

Los algoritmos opacos –también conocidos como black box– son aquellos que resuelven el problema para el cual se les ha entrenado, pero son incapaces de decirnos cómo lo han hecho. O más bien debería decir que somos incapaces de entender cómo lo han hecho. Por ejemplo, un algoritmo puede negar un crédito a alguien, o desaconsejar una determinada operación quirúrgica, pero el empleado de banca o el médico que debe asumir esa decisión, desconoce los motivos.

«El problema de aprender de comportamientos humanos es heredar sus sesgos no deseados»

¿Está el algoritmo aplicando motivos éticos? Y lo que es aun peor, ¿está aplicando motivos correctos? No lo sabemos. Da la casualidad, además, de que habitualmente los algoritmos opacos funcionan mejor que los transparentes. Es decir, en general son capaces de aprender cuestiones más complejas y de equivocarse menos, por lo que son una tendencia clara en la industria.

El aprendizaje supervisado aprende mediante la inspección de problemas resueltos en el pasado. Ahora bien ¿qué pasa si esos problemas resueltos contienen inadvertidamente sesgos inmorales? Pues que la máquina aprende también esos sesgos no deseados. Resultado: modelos que predicen el riesgo de reincidencia de delincuentes que son racistas, modelos de selección automática de currículums que son machistas, etcétera.

El problema es que si hemos usado una técnica “de caja negra”, seguramente ese sesgo jamás será detectado, y tendremos un algoritmo que ha aprendido… a odiar a una clase social, a discriminar a una raza, a un sexo…


Juan Jesús Alcolea es miembro fundador y director de analítica de Dimetrical, The Analytics Lab, una startup especializada en sistemas y servicios avanzados de análisis de datos para instituciones de educación superior.