Los Simpsons, Borges y la ciencia de datos
Hernan Revale
Senior Business Intelligence Consultant | MSc Business Analytics, Imperial College Business School
Nosotros, los fanáticos de Los Simpsons, sabemos que todo, absolutamente todo puede ser referenciado a algún capítulo de esa fantástica serie. También sabemos que la capacidad de poder identificarla con tantos sucesos cotidianos se debe a que fue escrita por personas con grandes niveles formativos y variadas trayectorias. De esta manera nos topamos con constantes referencias a películas, libros, personajes y música de todo tipo. De hecho, algunos de sus guionistas eran geeks matemáticos, por lo que si prestamos atención, podremos encontrar varios gags ocultos en diversos capítulos que hacen referencia a esta ciencia. En definitiva, unos nerds.
En un capítulo de la serie, Montgomery Burns, el vil multimillonario, le hace un breve tour por su amplia mansión a Homero. Además de visitar una habitación con aves exóticas, y otra con el televisor más grande del mundo, le muestra un cuarto con mil monos tipeando en mil máquinas de escribir. Burns explica que pronto terminarán la “novela más grande de la historia”, para luego tomar una página al azar escrita por uno de los pobres primates y, en su versión original en inglés, leer la primera parte de la novela "Historia de dos ciudades" de Charles Dickens, pero con una errata en una de sus palabras. Ante tal error, Burns furioso le arroja el papel hecho un bollo al mono.
Esta escena de solo unos pocos segundos da cuenta del Teorema del Mono Infinito. A grandes rasgos, el planteo es que un número infinito de monos mecanografiando en un periodo infinito de tiempo en infinitas máquinas de escribir, sería capaz de escribir cualquier obra, como por ejemplo, el Quijote de Cervantes. El teorema se lo relaciona con el lema de Borel-Cantelli de comienzos del siglo XX, del cual se deriva que, bajo ciertas condiciones, la probabilidad de un evento será de 0 –el evento no va a ocurrir- o de 1 –el evento ocurrirá con seguridad, es decir, con una probabilidad del 100%-. Ahora, ?cuál es la lógica detrás de este planteo?
El texto del Quijote de la Mancha comienza con la conocida frase:
“En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua, rocín flaco y galgo corredor...”
Supongamos que queremos que uno de nuestros monos escriba, de forma aleatoria, la primera expresión, “En un lugar de la Mancha”. Supongamos también, a fines de simplificar el ejemplo, que no tenemos en cuenta mayúsculas ni puntuación, por lo que nos interesa que el mono escriba “en un lugar de la mancha”.
Imaginemos que nuestra máquina de escribir cuenta solo con las 27 letras del alfabeto y el espacio (28 símbolos), por lo que la probabilidad de que el mono dé con un símbolo determinado -digamos la letra e, por ejemplo- de manera aleatoria será 1/28 (probabilidad de teclear 1 símbolo -la letra e- sobre las 28 opciones posibles). Y, suponiendo que cada tecleo son eventos estadísticamente independientes unos de otros (el hecho de que el mono elija una tecla no influye en la tecla siguiente que vaya a elegir), podemos calcular la probabilidad de que el mono elija las dos primeras letras que andamos buscando ‘e’ y ‘n’, como un múltiplo de cada una de sus probabilidades, es decir, 1/28 x 1/28, lo que es igual que (1/28)^2, el número elevado al cuadrado.
Llevando este mismo razonamiento a todos los caracteres que buscamos, que son 24 en nuestro ejemplo, incluyendo espacios, la probabilidad de que nuestro querido primate escriba “en un lugar de la mancha” sería igual que la probabilidad del tecleo de una letra aleatoria determinada multiplicada 24 veces, es decir, (1/28)^24. A esta altura quizás ya se habrán dado cuenta que es un número muuuy peque?o (de hecho, da un número con 35 ceros después de la coma). Por contraposición, podríamos calcular la probabilidad de que el mono no escriba la secuencia de letras buscada, de manera tan sencilla como calcular la probabilidad total (1) menos la probabilidad de escribir nuestra secuencia, nos daría 1 - (1/28)24, que es un número muy cercano a uno.
Hasta acá, pareciera que la probabilidad de tener éxito con nuestro querido mono no está a nuestro favor. Pero, ?qué pasaría si empezamos a incorporar más monos? Dijimos que la probabilidad de fracaso con nuestro primer mono es de 1 - (1/28)^24, un número que se acerca muchísimo a 1, pero que no llega a serlo. Si incorporamos un segundo mono, el cálculo que deberíamos hacer para saber nuestra nueva probabilidad de fracaso sería (1 - (1/28)24)^2. De hecho, si incorporamos n monos, el cálculo nos quedaría (1 - (1/28)24)^n. Como sabemos que el número dentro del cálculo exponencial es menor a 1, a medida que n aumente (nuestro número de monos), el número dentro del mayor paréntesis va a tender a disminuir. En esta línea, si n tiende a infinito, el resultado de la ecuación tenderá a cero. Lo que es lo mismo que decir que: si la cantidad de monos tiende a infinito, la probabilidad de fracaso tiende a ser nula. La magia del infinito.
Si bien hasta acá parece una revancha de su profe de matemática de la secundaria para que vuelvan a padecer sus crípticas fórmulas, pensemos la implicancia de lo que acabamos de inferir. Infinitos monos, tipeando en infinitas máquinas de escribir, efectivamente podrían escribir el Quijote. De hecho, estarían condenados a escribir el Quijote indefectiblemente, como también la Odisea de Homero (no Simpson), y cualquier historia, novela y suceso que pasó o estará por pasar; y, si les agregamos a las máquinas de escribir los caracteres suficientes, podrían ser escritos en todos los idiomas posibles. Como también escribirían innumerables sucesiones de texto sin ningún tipo de sentido.
Vale contar que, en una iniciativa con poca claridad científica, en el 2003 científicos en Inglaterra dejaron un teclado en una jaula con seis monos durante un mes, y lo único que obtuvieron fue una sucesión de letras repetidas, y que orinen y defequen sobre el mismo teclado. Igualmente, no les quitó el orgullo de tomar lo escrito y publicarlo bajo una edición limitada de un libro titulado “Notas hacia la obra completa de Shakespeare”. A su vez, si alguien más quiere realizar el experimento, pero sin herir las aspiraciones literarias de ningún primate, puede ingresar a la versión virtual del mismo. En algunas de estas simulaciones virtuales, luego de miles de millones de a?os-mono lograron por fin generar algunos pocos caracteres que coincidían con fragmentos de obras clásicas literarias.
Jorge Luis Borges, escritor que juega en muchos de sus cuentos con el concepto del infinito y la eternidad, describe en “La biblioteca de Babel” la existencia de una biblioteca de galerías idénticas en apariencia interminables, en las cuales se encuentran innumerables libros con 410 páginas cada uno, 40 renglones por página y 80 símbolos por renglón, donde el número de símbolos es de 25 incluyendo el espacio, la coma y el punto. El protagonista del cuento explica que los libros de Babel están compuestos a partir de composiciones aleatorias de estos signos, agotando todas las posibles combinaciones (cuyo número es inmensamente grande, pero no infinito). A su vez, existen hombres que vagan los eternos pasillos en búsqueda de algún libro cuyo contenido sea más que una sucesión incoherente de símbolos, sino algún conocimiento precioso, tratando de dar algún sentido a una empresa destinada al fracaso, donde la probabilidad de éxito es prácticamente cero. Similar a ingresar a una sala con mil monos tipeando aleatoriamente y esperar que hayan escrito una página de la novela de Dickens.
Erik Desmazières, la Sala de los Planetas – La Biblioteca de Babel – Borges
Otra vez, en algunos de estos libros se encontrarían las verdades del Universo, las historias de cada ser que existió y por nacer contadas desde todas las perspectivas posibles, todos los textos de la humanidad (incluyendo el Quijote y la vergonzosa carta de amor que escribiste en la primaria), y también innumerables facsímiles de los anteriores con mínimas variaciones, imperfecciones y afirmaciones falaces. Los tomos de la biblioteca con los conocimientos del Universo serían algo similar al mundo inteligible o de las ideas que planteó Platón hace más de dos mil a?os, en el cual se esconde la verdad y pueden ser captadas por medio de la razón desde nuestro mundo.
Volviendo al Quijote, en otra de las obras de Borges, titulada “Pierre Menard, autor del Quijote”, el singular personaje central del cuento se pone como objetivo la escritura de la icónica obra de Cervantes. Hasta acá el objetivo parece vacuo, incluso fácil. Pero lo relevante es la novedad de uno de los métodos propuestos: no plantea una transcripción de la obra, sino ‘llegar al Quijote’ mediante la vivencia de las mismas experiencias de vida que Cervantes. Después de todo, el filósofo espa?ol José Ortega y Gasset decía “yo soy yo y mis circunstancias”, en un libro titulado curiosamente “Meditaciones del Quijote”. En el cuento de Borges, el personaje rechaza esa primera aproximación y plantea llegar al Quijote desde sus propias vivencias de manera espontánea, a su vez, minimiza la dificultad de su empresa diciendo “Me bastaría ser inmortal para llevarla a cabo”; otra vez la eternidad borgiana.
Ahora, ?qué tiene que ver todo esto con la ciencia de datos? Para empezar, las grandísimas cantidades de datos –dando casi una idea de infinitud para la capacidad de la mente humana- son especialidad de esta ciencia. A esta altura ya debemos haber escuchado hasta el hartazgo que generamos un montón de datos constantemente con ese apéndice electrónico que llamamos celular y que muy generosamente se los compartimos a grandes compa?ías, las cuales monetizan nuestra atención por medio de algoritmos entrenados para mantenernos en sus garras y vendernos esa silla ergonómica de escritorio la cual el día anterior pensaste que andabas necesitando, y ahora crees que Mark Zuckerberg te lee los pensamientos (ah, ?soy solo yo?).
Los algoritmos, a diferencia de un mono apretando teclas al azar sin un propósito concreto, cumplen eficientemente los objetivos por los que fueron programados. De hecho, lo bueno de los algoritmos es que van a hacer exactamente lo que uno los programe para que hagan; pero lo malo de los algoritmos es que van a hacer exactamente lo que uno los programe para que hagan. Es decir, la ventaja de los algoritmos, así como la limitación, radica en que su potencial está limitado a las instrucciones o reglas que ingresaron aquellos que los programen.
Acá es donde aparece el Machine Learning que, como el nombre sugiere, rompe las limitaciones anteriormente mencionadas a través del aprendizaje automático, es decir, algoritmos que mediante la “experiencia” (el análisis de grandes bases de datos) va mejorando su desempe?o. Así es como, por ejemplo, se puede entrenar a un algoritmo a distinguir entre fotos de perros y gatos solo ‘alimentándolo’ con montones de fotos de ambos animales y explicándole (o etiquetando) cuándo es un perro y cuándo un gato. De esta forma, con la información suficiente, e imitando lo que podría ser el proceso de aprendizaje de un ni?o o ni?a, ante la aparición de una nueva imagen de un gato que nunca ha visto ya podrá distinguirla con facilidad en base a la gran cantidad de datos ya analizados y aprendidos. No fue necesario codificar cada una de las características diferenciales de cada animal, sino que el programa ha podido ‘aprenderlo’ de manera autónoma.
Pero no solo sirve para distinguir fotos de animales, también se puede utilizar para, por ejemplo, diagnósticos médicos, donde el algoritmo podría analizar millones de datos por segundo para detección temprana de distintos tipos de enfermedades, o con objetivos más perversos, como la definición de un perfil psicométrico de ciudadanos para la generación de campa?as políticas hipersegmentadas que procuren moldear la opinión de los votantes. ?Suena muy apocalíptico?, esto justamente fue lo que pasó en el famoso caso de Cambridge Analytica de hace unos pocos a?os.
Ya hemos mencionado que nosotros, cuales monos en máquinas de escribir, vamos suministrando información por medio de nuestras interacciones en dispositivos interconectados, que en forma individual podrían no reportar un valor significativo, o sea, a nadie le interesa particularmente a cuántas fotos de gatitos les diste like ayer o cuántas milésimas de segundos frenaste a ver el video de cocina de ese plato que nunca vas a hacer. Pero estas interacciones a nivel agregado son el alimento de algoritmos que, mediante sofisticadas herramientas estadísticas, son programados para ir aprendiendo sobre el comportamiento humano y llegan a tener poderes de predicción escalofriantes. Como cuando ya para el 2012 el gerente de una cadena de comercios de Estados Unidos recibió a un padre enojado porque su hija adolescente estaba recibiendo cupones de descuentos para cunas y ropa de bebé de parte de su empresa, y cuestionaba que la estén alentando a quedar embarazada. Resulta que los algoritmos publicitarios habían detectado cambios sutiles en los patrones de comportamiento de consumo de la adolescente y pudieron predecir velozmente que efectivamente estaba embarazada, incluso antes que el padre, con quien compartía el hogar. Casi 10 a?os después, estas historias tal vez ya no nos parecen tan sorprendentes.
A su vez, el aumento en la complejidad de estas inteligencias artificiales (IA) (algoritmos que buscan imitar comportamiento “inteligente” como el del ser humano, valiéndose de herramientas como el machine learning), ha tomado dimensiones en las cuales, como el programa mejora de manera automática, ni los propios creadores entienden qué pasa allí dentro. Este es el caso de los dos chatbots de Facebook que, conversando entre sí, crearon un propio lenguaje que los programadores que los crearon no lograban comprender.
Para darnos una idea del poder de los datos, ya en el 2012 el psicólogo Michal Kosinski y su equipo había desarrollado un modelo que, con un conocimiento promedio de 68 likes de Facebook de un usuario, podía predecir su color de piel con un 95% de exactitud, su orientación sexual con un 88%, y muchas más cosas, como afiliación política y religiosa, inteligencia, uso de drogas e incluso si posee padres divorciados. Se dice que al momento de publicación de estos resultados Kosinski recibió dos llamados, uno con una amenaza de demanda judicial, y el otro con una propuesta de trabajo, ambos de Facebook.
En base a la cantidad inmensa de datos de las que se alimentan estos algoritmos, los mismos no solo pueden analizarlos, generar correlaciones entre variables y hasta predecir comportamientos, sino que también pueden combinar la información de manera novedosa y generar nuevos resultados que nunca existieron previamente. Por ejemplo, existe una web llamada “This Person Does Not Exist” (esta persona no existe) que, mediante la utilización de redes generativas adversarias (redes neuronales artificiales que “compiten” entre ellas para ir mejorando), generan la cara de una persona que nunca existió. De hecho, ya existen numerosas web que bajo el mismo concepto generan imágenes de gatos, CVs, páginas web de Startups, obras de arte, pies (??), hasta memes, que nunca existieron.
Meme generado con inteligencia artificial, lo entenderías si fueses una IA
En este mismo sentido, la empresa OpenAI publicó a comienzos de este a?o una IA entrenada que puede crear imágenes desde comandos de texto llamada DALL-E (juego de palabras entre el pintor Salvador Dalí y WALL-E de Pixar). Tal vez nos estemos preguntando ?cuál es la novedad?, si con Google Imágenes básicamente hacemos eso. Pero aquí la palabra clave es “crear”, es decir, el sistema puede generar imágenes previamente inexistentes en base a las indicaciones que le demos mediante texto, esto nos permite un mundo de posibilidades. Pensemos que queremos ver un caracol, podemos indicarle al sistema el estilo de la imagen (?lo queremos como una caricatura, en 3D, en rayos X o realista?), el contexto (?en una monta?a, un campo o un bosque?), el ángulo (?de costado, de arriba, una fotografía macro?), la composición del mismo (?hecho de glaciares, de motocicletas, de palta?), y así las combinaciones que se nos ocurran. Bueno, por el momento OpenAI no abrió el código y solo permite un límite de combinaciones, pero es cuestión de tiempo que la tecnología avance y varias profesiones se vean en la necesidad de transformarse, como dise?adores gráficos, arquitectos, o el mundo de la moda. Solo imaginemos que busquemos dise?ar el logo de nuestro nuevo negocio y queremos que combine los conceptos de “tecnología”, “profesionalismo” y “multiculturalidad”, para con un par de clics recibir miles de propuestas generadas por nuestra IA. También imaginemos que queremos opciones de la fachada del negocio, de la disposición del interior y su mobiliario, de las combinaciones de colores y modelos para los uniformes del personal, etc.
Algunos resultados de nuestro caracol-moto generado por DALL-E
Ahora, volvamos al inicio. Ya tenemos cantidades enormes de datos (los libros de nuestra biblioteca), los algoritmos que buscan darles sentido a los mismos (los revisores que vagan por los interminables pasillos), y la capacidad de generar infinitas permutaciones de los datos para generar nueva información que nunca antes había existido, entonces ?estamos a un paso de crear nuestra biblioteca de Babel?, si podemos imaginarnos todas las combinaciones posibles de palabras e imágenes, ?estará por allí escondida alguna información preciosa y recóndita por ser hallada?. Por ejemplo, con la web que permite crear caras aleatorias, ?algún usuario habrá generado sin darse cuenta la cara de Jesús, de Buda, o del futuro presidente intergaláctico del a?o 2132?
Si bien el poder de cómputo para calcular algo tan inmenso como la información que se encuentra en la biblioteca ficticia de Borges es inalcanzable, donde el número de libros supera ampliamente al número de átomos en el universo (25^1312000 libros contra 10^80 átomos). Quien te dice que no se vayan a seguir desarrollando formas ingeniosas de disminuir las permutaciones a solo aquellas relevantes, pero ?quién define lo que es “relevante”? A todo esto, vale aclarar que la riqueza de las nuevas combinaciones generadas estará atada a la información con la que se alimenten tales algoritmos. Pero, por el momento, no estaremos seguros si al entrar a la web generadora de Startups nos encontraremos la nueva futura idea multimillonaria que saldrá en unos a?os, como cuando Homero Simpson sue?a que creó un producto que lo hace rico, pero nunca lo puede llegar a ver bien, ?se acuerdan?
PhD in Nuclear Engineering, Solver Developer
3 年Muy bueno el post. Kudos. Cuando leí "La Biblioteca de Babel" pensé que Borges me había robado mi idea 50 a?os antes de que se me hubiese ocurrido. En 1996 me dieron mi primera lectora de CDs y entonces yo pensaba que si hacía un programa que quemara todas las posibles combinaciones de ceros y unos que cabían en 650Mb ntonces yo iba a tener todos los juegos, todas las películas, todos los sistemas operativos...
Store Development Project Manager
3 年Justamente ayer estaba pensando en los algoritmos y AI. Parece que no solo Mark Zuckerberg lee los pensamientos. Genio como siempre Herni!