Las máquinas no piensan
Las máquinas no piensan. Esta afirmación es cierta ahora mismo, a finales de agosto y principios de septiembre de 2024. Los sorprendentes y maravillosos avances en el campo de la inteligencia artificial (IA) en los últimos meses, el desconocimiento general sobre cómo funciona, y esa palabra "inteligencia" en la nomenclatura de las herramientas, hacen que muchas personas se confundan. No, las máquinas no piensan, pero lo disimulan muy bien.
En informática, todo suele tener un inicio muy simple. Luego se van creando capas más complejas a partir de las capas anteriores. Más capas, más capas, más capas, y al final se pierde de vista el origen de todo, pero sigue estando ahí.
Tomemos como origen esta frase: "Están todo el día como el perro _ el gato."
Si tu lengua materna es el castellano, o lo conoces bien, no te resultará complicado rellenar el hueco. Incluso si tu idioma es otro, solo necesitas traducir el texto y rellenar el hueco en tu idioma. Si a un ordenador le pides que rellene el hueco, no sabrá qué hacer. Si le das todos los caracteres que existen y le dices que rellene el hueco con algunos de ellos mediante un programa, acabará probando todas las combinaciones, y sí, en una de esas combinaciones pondrá una "y", pero por simple probabilidad. Un ordenador nunca sabe lo que está haciendo.
Un buen día, se plantearon cómo podría un programa encontrar la combinación correcta para completar cualquier texto dado, al que le faltara una parte. Supongo que las discusiones fueron largas y tediosas, pero al final llegaron a un par de conclusiones: los humanos sabemos qué poner porque conocemos el idioma y nos enseñaron cómo expresar en texto las ideas. Así que, si querían que una máquina rellenara el espacio en blanco, debería simular ambas cosas.
Para solucionar el primer problema, decidieron proporcionar al programa la mayor cantidad de textos posible.
Pero el segundo problema es imposible para una máquina, ya que no es capaz de captar el concepto de "idea". La solución que encontraron fue deducir lo que falta estadísticamente. Es mucho más complejo, pero resumiendo: el programa buscará todas las combinaciones parecidas en los textos que se le han dado, recupera los caracteres que se utilizan habitualmente en esos textos, los cuantifica, y aquella opción que tiene un mayor porcentaje de uso es la que elige.
En la frase de ejemplo, después de buscar entre todos los textos proporcionados, seguramente obtendrá un resultado del estilo:
- y: 96%
- i: 2%
- o: 1%
- u: 1%
Y entonces responde: "Están todo el día como el perro y el gato."
A esta manera de actuar la llamamos IA y no programación, porque la programación contiene un conjunto de procesos previamente pensados, programados, y a partir de la entrada de datos, esos procesos se ejecutan y se da una respuesta. Si en la entrada de datos hay algo que no está previsto, la programación dará un error. Por lo tanto, el número de opciones siempre es finito. En cambio, para solucionar el problema de nuestra frase, necesitamos tratar opciones (casi) infinitas. Así que se ha creado un sistema para que la máquina "piense" (en realidad son cálculos matemáticos complejos) por sí sola en todas las combinaciones infinitas; en realidad son finitas, pero superan en mucho las que un humano puede programar. Las evalúa y da una respuesta.
Más capas. Si solo la nutro de textos en castellano, tengo dos problemas: que quienes hablan otro idioma no podrán acceder y que, si los textos son en castellano, la cultura intrínseca en ellos será hispana. Un ejemplo: para los hispanohablantes, un gato tiene 7 vidas, mientras que para un anglosajón tiene 9 vidas. Así que, si un anglosajón pregunta por las vidas de un gato, y la IA responde que tiene 7, pensará que es un error. La solución es añadir textos en todos los idiomas y una capa de traducción. Más capas, más capas, más capas...
Nos hemos acostumbrado a los chats conversacionales, donde preguntamos algo y la IA responde. ¿Cómo nos entiende? La respuesta es añadir otra capa más. A las capas base hay que añadirles una capa cuya función es entender una pregunta. Las preguntas tienen una estructura determinada: empiezan por "¿" en algunos idiomas, pero en todos incluyen pronombres interrogativos, un verbo... y acaban con "?". Una vez que esta capa determina qué se está preguntando, realiza la búsqueda y da una respuesta. Un ejemplo: ante la pregunta "¿Dónde nació Cristóbal Colón?", deducirá que queremos saber el lugar de nacimiento ("dónde nació") de un tal Cristóbal Colón. Buscará en los textos proporcionados y dará un resultado parecido a:
- 75% Génova
- 15% No se sabe
- 5% Cataluña
- 3% Galicia
- 2% Lisboa
Y nos responderá: "Cristóbal Colón nació en Génova." En este ejemplo intento resaltar que a la IA le da igual Lisboa que Génova; simplemente responde aquello que es más habitual en sus fuentes.
Así, iremos incrementando tantas capas como necesitemos para hacer lo más natural posible la conversación entre el humano y la IA, pero esta sigue sin pensar.
Otro modelo son las IAs que generan imágenes. Pongamos que queremos una IA que genere imágenes de perros, así que la IA ha de aprender qué es un perro, pero no puede. La solución pasó de nuevo por capas y estadística.
Una capa aprenderá a comparar. La entrenaremos hasta que sea capaz, mediante sus propios cálculos estadísticos, de identificar al 100% de las veces que le pasemos una imagen de un perro, sin importar raza, pelaje, tamaño, color... y descartará todas las imágenes que no sean perros.
Otra capa generará imágenes. El sistema es complicado y evoluciona muy rápido, pero vamos a simplificar diciendo que va probando. Una vez tiene una prueba terminada, por ejemplo de un perro, se la pasa a la capa anterior, y esta le dice: "No, esto no es un perro." Así entramos en un bucle, que termina cuando le confirman que ha generado un perro.
¿Vídeo? Debemos entender que un vídeo no es más que imágenes acumuladas. Es mucho más complejo, porque en un vídeo las imágenes dan la sensación de movimiento. Esto significa que los objetos de la imagen han de empezar en una posición y acabar en otra. Así que hay que tener capas que identifiquen dónde empieza el movimiento, dónde acaba, y combinarlas con las que generan imágenes para que creen nuevas imágenes intermedias entre el inicio y el final de dicho movimiento. Todo esto se realiza con estadística y probabilidades. Además de estas capas de movimiento, necesitamos otras de luces, sombras, colores... Todo bien mezclado nos proporcionará un vídeo.
¿Voz? ¿Música? En definitiva, son sonidos, y desde hace mucho tiempo sabemos "dibujar" el sonido en gráficas de ondas sonoras. Al igual que otras IAs son capaces de identificar imágenes (perros, gatos, casas...), en este caso necesitamos que identifiquen sílabas dentro de las ondas sonoras, y de nuevo, mediante estadísticas y probabilidades.
Seguramente habréis visto esos vídeos donde se puede hacer decir cualquier cosa a un personaje. Solo hay que ir mezclando capas y más capas. Se toma IA de vídeo por un lado, IA de imágenes por otro, pero que solo mueva la boca del personaje, IA de sonido para capturar la modulación, tono y ritmo de la voz del personaje, y otra IA de sonido para que transforme lo que se dice en texto y lo reproduzca con el tono, ritmo y modulación de voz del personaje. No es simple, pero lo mezclamos todo y ya tienes un deepfake.
Ahora mismo, los estudios en este campo avanzan tan rápido que, para cada uno de estos procesos, donde quizá unos meses atrás necesitábamos semanas para dar un paso, ahora lo hacemos en segundos. Al reducir el tiempo de generación de cada paso, se puede ir añadiendo cada vez más complejidad al resultado y también simplificar los requisitos necesarios para ejecutar lo que queremos. Spielberg necesitó meses e inmensos ordenadores para generar los dinosaurios de Jurassic Park, mientras que ahora puedes pedirle a cualquier generador un dinosaurio bailando, y en unos pocos minutos tendrás lo que deseas.
Hasta hace poco, para distinguir lo que era real o no, nos basábamos en la fuente de donde nos llegaban los datos, quién nos informaba, y como mucho, podías dudar si era natural o estaba preparado. Ahora, la IA nos proporciona contenido 100% realista que jamás ha existido. La mujer del vídeo la he creado con una frase y cuatro minutos de espera.
Al ser una creación humana al alcance de cualquiera, pueden ser datos correctos, pero también puede haber un error o mala fe que corrompa la información que nos proporcione, pero será indistinguible de la realidad.
El único punto de inflexión lo marca la ética de quien nos proporciona los datos. Desgraciadamente, los dueños de las IAs son empresas privadas, y su única función es ganar más dinero, no la ética. Tampoco debemos olvidar a los estafadores de toda la vida, a los que hay que añadir el cada vez mayor número de idiotas por metro cuadrado. Y ninguno de los tres dudará en infoxicarnos.
La IA no piensa, no es magia, es simple tecnología, pero mal manejada nos joderá la vida.
Imagen creada con Dream Machine 1.5 a través de Luma
Comentarios
Publicar un comentario