Elige una categoría:

LOS HUMANOS SOMOS PROPENSOS AL ENGAÑO A TRAVÉS DE LA IA

En el Boletín N°16, se analizó los resultados de un estudio realizado por la Universidad de Stanford sobre el comportamiento de modelos LLM de IA que, cuando están sujetos a un entrenamiento que los incentiva a cumplir con su tarea de dar la mejor respuesta a sus usuarios, suelen ir más allá de los hechos y empezar a “adivinar” posibles respuestas que luego pueden contener información falsa.

En este número, vamos a tratar sobre un tema similar pero donde los actores principales no son los productos IA que residen en computadoras que dan servicio a usuarios humanos, sino son los humanos los analizados. Sorprendentemente, este nuevo análisis -que procede de una fuente totalmente diferente a la del Boletín N°16- muestra resultados similares. Las personas también son afectadas, aunque con diferencias menores.     

Zoe Rahwan , investigadora en Ciencias del Comportamiento de un instituto de la Sociedad Max Planck para el Desarrollo Humano en Berlín explica que el estudio, que reunió a miles de participantes, sugiere que existe una propensión al engaño cuando se utilizan modelos IA para desarrollar tareas. A pesar de que comienza por afirmar que la mayoría de las personas rechazan la deshonestidad, nos dice que esa convicción, cuando se emplea a un tercero para ejecutar tareas, especialmente si ese tercero es un modelo IA (una máquina) a quien se delega esa tarea, provoca una especie de difuminación de la responsabilidad, que según su experiencia “puede ser enorme”.

 

La propensión es más fuerte cuando se permite que la IA se encargue, nos dice Nils Kobis, coautor del estudio e investigador de comportamientos y normas sociales de la Universidad de Duisburg-Esen, Alemania. Entre los experimentos los participantes lanzaban un dado y declaraban el resultado, otros permitían falsear ingresos a fin de evadir impuestos, como ejemplos de casos en los cuales se le presenta la tentación de infringir una norma para obtener beneficios.

Los roles de la IA también se presentaron en diferentes grados, por ejemplo, sobre el detalle de los resultados obtenidos, proporcionarles datos sesgados o imparciales, y también el caso de no uso de ninguna ayuda, es decir que la IA no participaría en ese ejercicio. Los resultados mostraron una amplia variedad, desde aquellos sin uso de la IA en donde el índice de deshonestidad estuvo alrededor del 5%, hasta el caso en que se redujeron las restricciones, en donde se alcanzó un 88%. Asimismo, hubo casos en los que se instruyó al participante, así como a la IA para que se porten en forma abiertamente deshonesta, en los cuales la IA alcanzó mayores niveles de deshonestidad que las personas. El resultado indicó que las máquinas evidenciaron estar dispuestas a seguir esas instrucciones, mientras que los humanos no.

Finalmente, se ensayó un grupo de controles para frenar la propensión de la IA al engaño, sin embargo, el resultado demostró que las máquinas se mostraron “muy complacientes con la deshonestidad total”, y a pasar que ChatGPT resumió esas instrucciones como: “La deshonestidad y el daño violan los principios de equidad e integridad”, dicho mensaje tuvo un efecto de muy bajo a moderado en la tendencia de hacer trampa.

En cuanto a la manera de evitar esa tendencia, se estableció que funcionaba cuando se emitía órdenes específicas como “No está permitido falsear los ingresos bajo ninguna circunstancia”. Otro resultado, mostró que los participantes eran más propensos al engaño cuando no tenían que instruir a la IA para que mienta. La conclusión es que las personas sufren un daño a su autoestima cuando faltan a la verdad, cosa que no parece suceder cuando no pedimos explícitamente a otro para que lo haga por nosotros, especialmente si es una IA.

FUENTE: Scientific American – Today in Science: 28/09/25