Publicado: noviembre 5, 2025, 3:01 pm
La inteligencia artificial no solo aprende de los datos, también hereda sus prejuicios . Durante años, los sistemas de reconocimiento facial y de análisis de imágenes se han entrenado con fotografías obtenidas de internet sin permiso, con escasa diversidad y sin control sobre su procedencia. El resultado ha sido una cadena de algoritmos que reconocen peor los rostros de personas negras, mayores o con determinados rasgos físicos , y que perpetúan estereotipos culturales o de género. Ahora, un equipo de Sony AI propone una alternativa radical: un conjunto de datos creado desde cero con criterios éticos . El trabajo, publicado en ‘Nature’ y liderado por la investigadora Alice Xiang, presenta el Fair Human-Centric Image Benchmark (FHIBE), el primer gran banco de imágenes humanas diseñado para evaluar los sesgos de los modelos de visión artificial de forma justa y transparente. El FHIBE reúne fotografías de 1.981 personas de más de 80 países , todas obtenidas con su consentimiento y tras una remuneración económica por facilitar sus datos. Cada participante pudo retirar sus imágenes en cualquier momento, y los investigadores aplicaron técnicas de privacidad avanzadas para eliminar información personal o rostros de personas que no habían consentido su participación. «Queríamos demostrar que la ética puede incorporarse a cada etapa del proceso , desde la recogida de imágenes hasta su uso científico», explica Xiang a ABC. «Durante demasiado tiempo la investigación en inteligencia artificial ha dependido de bases de datos recopiladas sin consentimiento ni compensación, y eso tenía que cambiar». La base de datos no es solo diversa geográficamente —con un 45% de imágenes procedentes de África y un 40% de Asia—, sino también en términos de edad, tono de piel, apariencia y condiciones ambientales. Cada imagen está acompañada de decenas de anotaciones: desde el tipo de luz o el modelo de cámara utilizado hasta 33 puntos anatómicos del rostro y el cuerpo. En total, más de 8.500 valores distintos de atributos , lo que la convierte en la colección de imágenes humanas más exhaustivamente etiquetada del mundo. Para comprobar su utilidad, los investigadores pusieron a prueba FHIBE con modelos de visión ampliamente usados en la industria y la investigación, desde sistemas de detección facial hasta los grandes modelos multimodales que combinan texto e imagen. Estos últimos, conocidos como modelos fundacionales , no se limitan a una tarea concreta, sino que aprenden a relacionar imágenes y texto a gran escala. Ejemplos como CLIP o BLIP-2 se utilizan como base para aplicaciones que van desde la búsqueda de imágenes a través de texto hasta clasificar esas mismas fotografías con ciertas etiquetas para agilizar su búsqueda, pero que pueden reproducir estereotipos de género o raza. Los investigadores evaluaron tanto sistemas de reconocimiento facial, que buscan identificar a una persona entre miles —como los que utilizan las cámaras de seguridad o las redes sociales para sugerir etiquetas—, como de verificación facial, empleados en tareas de autenticación, por ejemplo, al desbloquear un móvil o en el control biométrico de los aeropuertos . Aunque ambos analizan rostros mediante redes neuronales, el primero implica una búsqueda entre muchos posibles y tiene mayores riesgos de vigilancia y discriminación, mientras que el segundo compara un rostro con una referencia concreta y tiende a fallar más con ciertos grupos, como las mujeres o las personas mayores. Los resultados son reveladores: los algoritmos siguen mostrando notables diferencias de precisión según la edad, el color de piel o la ascendencia. En general, funcionan mejor con personas jóvenes, de piel clara y ascendencia asiática, y peor con personas mayores o africanas. El análisis también permitió descubrir nuevas formas de sesgo que los estudios anteriores habían pasado por alto. Por ejemplo, los modelos de reconocimiento facial tienden a fallar más con hombres calvos porque asocian la ausencia de cabello con la pérdida de contorno facial , mientras que el pelo largo o cubierto por un pañuelo no genera el mismo problema. Los sistemas de verificación facial, en cambio, confundían más a las mujeres, «probablemente por la mayor variabilidad de peinados», dice el estudio. En los modelos multimodales las distorsiones son más profundas. CLIP, creado por OpenAI y uno de los más extendidos, identificaba con mayor frecuencia a los hombres como el «género por defecto» y asociaba los rostros africanos o asiáticos con ambientes rurales. Otro modelo, BLIP-2, respondía con frases cargadas de estereotipos al intentar describir imágenes: ante la pregunta de por qué una persona resultaba simpática, podía contestar «porque es una mujer», y en otras ocasiones asignaba oficios degradantes a determinados grupos raciales, pese a que ninguna de las preguntas contenía referencias a género o raza. «No se trata solo de sesgos en los datos», advierte Xiang. «Estos modelos reflejan asociaciones culturales aprendidas a gran escala: si internet representa más a ciertos grupos en contextos negativos, la IA acaba asumiendo que esa correlación es una verdad». La investigadora subraya que FHIBE no pretende reemplazar los conjuntos de datos existentes, sino ofrecer un punto de referencia ético y transparente para medir los sesgos , una especie de ‘centinela’, que vele por que no se reproduzcan sesgos, y si aparecen, que se pueda avisar y corregir. «El objetivo es que los desarrolladores puedan auditar sus sistemas sin recurrir a imágenes obtenidas sin permiso, y así reducir el riesgo de reproducir desigualdades», explica. «Durante años se ha priorizado la cantidad de datos sobre la calidad y la ética. Este proyecto demuestra que es posible hacerlo de otra forma». El estudio destaca paradoja de que la propia comunidad científica, que denuncia los sesgos de la IA, siga dependiendo de bases de datos creadas sin permiso . FHIBE propone un nuevo estándar: una colección viva, que permite retirar imágenes si sus autores lo desean y que podría actualizarse con nuevas aportaciones. «Queremos que sea una herramienta de confianza para evaluar la equidad de los modelos», señalan sus autores.
