La ULPGC valida con premio su ciencia sobre el reconocimiento de personas

Investigadores del SIANI ganan una competición internacional con un sistema automático basado en modelos de lenguaje como el ChatGPT, entrenado para responder preguntas

De izquierda a derecha, Modesto Castrillón, David Freire, Oliverio Santana, Javier Lorenzo y Daniel Hernández.

De izquierda a derecha, Modesto Castrillón, David Freire, Oliverio Santana, Javier Lorenzo y Daniel Hernández. / ULPGC

María Jesús Hernández

María Jesús Hernández

La ciencia de la marca ULPGC está de enhorabuena. El grupo de investigación en Inteligencia Artificial, Robótica y Oceanográfica Computacional (iROC) del Instituto Universitario de Sistemas Inteligentes y Aplicaciones Numéricas en Ingeniería (SIANI), ha ganado la competición internacional CAIP sobre reconocimiento automático de características de personas, celebrada en Chipre el pasado septiembre en el marco de la vigésima edición del Congreso Internacional de Análisis Informático de Imágenes y Patrones. Un premio que ha servido para validar los trabajos de investigación que llevan a cabo en el marco del proyecto ILUSOS -Interacción y re-identificación de personas mediante machine Learning, deep learning y análisis de datos multimodal: hacia una comunicación más natUral en la rObótica Social-, financiado por el Ministerio de Ciencia e Innovación.

El equipo iROC-ULPGC del Instituto SIANI, liderado por el catedrático Modesto Castrillón e integrado también por David Freire, Daniel Hernández, Javier Lorenzo y Oliverio Santana, presentó en colaboración con la investigadora Elena Sánchez de la Universidad de La Laguna (ULL), un sistema inteligente basado en los grandes modelos de lenguaje, como el ChatGPT, entrenado para responder preguntas que favorecen la identificación automática.

Cinco rasgos

En este caso, el reto planteado en la competición se basaba en un sistema capaz de realizar cinco tareas de reconocimiento: colores principales de la parte superior del cuerpo de la persona a identificar, colores de la parte inferior, el género de la persona, si llevaba algún bolso, cartera o similar, y si tenía sombrero, gorra o similar.

El equipo canario logró los cinco retos, despuntando en cuatro de ellos, lo que les dio la victoria con bastante diferencia respecto al resto de candidatos. Su sistema «está entrenado para responder varias preguntas, al estilo de los prompts, tan de moda desde el ChatGPT», explicó Castrillón, sobre el sistema en el que utilizaron el modelo de lenguaje BLIP-2 como sistema Visual Question Answering (VQA), que les permite realizar combinaciones de preguntas sobre imágenes.

La tecnología que han desarrollado los investigadores de la ULPGC se enmarca dentro del estudio ILUSOS que financia el Ministerio

«Nuestro sistema funcionó muy bien. La novedad fue, sobre todo, que aplicamos un modelo basado en lo que está ahora muy presente, que son los grandes modelos de lenguaje, como el ChatGPT. Centrado en información de la imagen y en un entrenamiento a partir de preguntas y respuestas. Es un enfoque innovador pues se han obtenido resultados espectaculares para resolver diversos problemas en la comunidad científica, pero no teníamos constancia de que pudiera funcionar bien para describir personas».

Este sistema, que tuvieron la ocasión de chequear en dicha competición, se enmarca dentro del proyecto ILUSOS -Interacción y re-identificación de personas mediante machine Learning, deep learning y análisis de datos multimodal: hacia una comunicación más natUral en la rObótica Social-, en el que trabajan junto a investigadores de la Universidad del País Vasco, institución coordinadora que se ocupa de la parte de interacción con el robot, mientras que el IUMA-ULPGC trabaja el campo de la visión. Se basa, principalmente, en la identificación de personas y el análisis de datos multimodal, en el ámbito de la robótica social.

La herramienta, además de aplicarse en seguridad, supone un avance en la interacción con las máquinas

«Trabajamos en la descripción de personas y, de hecho, colaboramos con la organización de la Transgrancanaria. Intentamos describir a los corredores a partir de la indumentaria para poderlos reconocer durante todo el recorrido y poder confirmar, que siempre es la misma persona la que está corriendo, aunque se den cambios de indumentaria como ponerse una chaqueta. Normalmente llevan un chip, pero lo puedes pasar de una persona a otra, y el objetivo es confirmar con la imagen que sigue siendo la misma persona», apuntó Modesto Castrillo. En este contexto, la competición internacional les ha servido para evaluar el trabajo realizado hasta el momento, porque disponían de más de 100.000 imágenes de personas para probarlo y constatar su fiabilidad, superando con nota dicho examen.

Aplicaciones

Esta tecnología, tiene múltiples aplicaciones, tanto en el sector de la videovigilancia y la seguridad, como en el campo de la interacción con el robot. «El objetivo es que la máquina sea capaz de tener más detalles de la persona con la que está interactuando para que ésta no sienta que es una máquina. Por ejemplo, que sea capaz de decirle detalles como te veo mala cara hoy, ¿estás bién?; o que bonita chaqueta. Esas cosas sirven para que la persona sienta que está interactuando con algo inteligente o que parece inteligente».

El objetivo último del proyecto ILUSOS, que se inició en 2022, es mejorar este tipo de técnicas, para conseguir que las máquinas sean mejores a la hora de interactuar con las personas.

Análisis de expresiones faciales

El grupo en Inteligencia Artificial, Robótica y Oceanográfica Computacional (iROC) del SIANI-ULPGC, junto con la ULL, tienen una gran experiencia en tecnología de reconocimiento, e interpretación de la expresión facial. Han logrado aplicar estas técnicas en un entorno real y complejo como ha sido una carrera de montaña de larga distancia y alta intensidad, concretamente la Transgrancanaria, donde las condiciones varían de forma frecuente a lo largo de diferentes momentos del día. Los resultados constatan la existencia de patrones consistentes en las emociones de los participantes. Gracias a su metodología, el análisis de las expresiones faciales para interpretar las emociones puede emplearse con diferentes fines, como monitorizar el rendimiento de los corredores o detectar posibles problemas de salud, con técnicas no invasivas. | M. J. H.

Suscríbete para seguir leyendo