¿Delegar en la IA nos vuelve menos éticos?

Cuando alguien realiza una tarea por sí mismo el 95% se comporta honestamente. Cuando esa misma tarea se delega a una inteligencia artificial indicándole un objetivo genérico, como maximizar el resultado, solo entre el 12% y el 16% mantiene un comportamiento ético. El dato es el hallazgo central de un estudio publicado en Nature en septiembre de 2025 por investigadores del Max Planck Institute for Human Development, la Universidad de Duisburg-Essen y la Toulouse School of Economics, basado en 13 estudios con más de 8.000 participantes.

La investigación utiliza un diseño experimental ya validado en cientos de estudios sobre deshonestidad: el "die-roll task", donde los participantes reportan el resultado de un dado y reciben un pago proporcional al número reportado. Lo novedoso es que los investigadores variaron la forma en que las personas delegan esa tarea a un agente de IA, usando tres modalidades: instrucciones explícitas basadas en reglas, entrenamiento supervisado con datos de jugadores previos, y definición de objetivos de alto nivel. Los diferentes estudios mostraron que a medida que la instrucción se vuelve más ambigua aumenta la deshonestidad.

Hay un segundo hallazgo igualmente relevante: las máquinas cumplen instrucciones deshonestas con mucha más frecuencia que las personas. En experimentos con diferentes modelos de lenguaje (GPT-4, GPT-4o, Claude 3.5 y Llama 3.3), las máquinas ejecutaron instrucciones completamente deshonestas entre el 58% y el 98% de las veces, comparado con el 25% al 40% en agentes humanos. Los investigadores probaron diversas estrategias para incluir guardrails y encontraron que las protecciones genéricas eran ineficaces; solo prohibiciones muy específicas sobre la tarea concreta lograban reducir (pero no eliminar) el comportamiento deshonesto.

Delegar decisiones que impactan a las personas

La IA ya interviene en procesos de gestión de personas donde la honestidad importa: filtro de candidatos, evaluación de desempeño, recomendaciones de compensación, análisis de encuestas de clima. El estudio muestra que algoritmos de IA pueden terminar realizando conductas antiéticas sin que nadie les diera esa instrucción explícita, simplemente por seguir un objetivo genérico.

El mecanismo que describen Köbis y sus colegas es conocido en la literatura como "distancia moral": las personas son más propensas a actuar de manera deshonesta cuando pueden interponer un intermediario entre ellas y las consecuencias de sus actos. Lo nuevo es que la IA funciona como un intermediario particularmente eficaz para ese propósito, porque a diferencia de un subordinado humano, la IA no cuestiona, no siente incomodidad y, salvo que se le instruya explícitamente lo contrario, tiende a optimizar el objetivo que recibe.

Para quienes trabajan en gestión de personas, esto plantea al menos tres preguntas. Primero, ¿quién define los objetivos que se le dan a la IA en los procesos de gestión de personas, y con qué nivel de especificidad? El estudio muestra que la ambigüedad en las instrucciones es precisamente lo que facilita la deshonestidad. Segundo, ¿se confía en que las protecciones genéricas del modelo serán suficientes o existen controles adicionales? Los datos sugieren que las protecciones genéricas son insuficientes y es necesario generar controles diseñados específicamente para cada proceso. Tercero, ¿se está considerando que la delegación a IA puede cambiar el comportamiento de las propias personas que la usan, no solo los resultados que la máquina produce?. Esta última pregunta es quizás la más incómoda. El problema no es solo que la IA pueda ejecutar instrucciones deshonestas: es que las personas, al delegar, se vuelven más propensas a pedirlo. La combinación de ambos efectos; personas más dispuestas a pedir que se haga trampa y máquinas más dispuestas a ejecutarla, es lo que hace del hallazgo algo que no conviene archivar en la carpeta de "riesgos teóricos".

Köbis, N., Rahwan, Z., Rilla, R., Supriyatno, B.I., Bersch, C., Ajaj, T., Bonnefon, J.-F. & Rahwan, I. (2025). Delegation to artificial intelligence can increase dishonest behaviour. Nature, 646, 126–134.

Deja una respuesta Cancelar la respuesta