El día que las máquinas sean capaces de percibir el mundo, podrán interactuar con él. Y con esta idea ha trabajado Carlos Campos Martínez, doctor en el programa de Doctorado en Ingeniería de Sistemas e Informática, ahora premio GTRob a la Mejor Tesis Doctoral de Robótica, realizada en el grupo de investigación de Robótica del I3A, RoPeRT. Un premio que recibió en las Jornadas de Automática 2022 celebradas en Logroño.
Una tesis (Precise and Robust Visual SLAM with Inertial Sensors and Deep Learning), con la que quiere ir un paso más hacia la consecución de máquinas que sean capaces de percibir, orientarse y tomar decisiones por sí mismas. “Esto permitirá al ser humano deshacerse de las tareas más tediosas y peligrosas, pudiéndose centrar en aquellas con un mayor componente humano y racional”, apunta Carlos Campos.
Su trabajo de investigación se centra en la visión por ordenador aplicada a la Robótica, la localización y la reconstrucción de escenas de manera simultánea, SLAM (por sus siglas en inglés), que abarca todas las técnicas que permiten a los robots estimar su posición y reconstruir su entorno al mismo tiempo, usando únicamente el conjunto de sensores que tiene a bordo. El SLAM constituye el elemento clave para la percepción de las máquinas, está presente en tecnologías y aplicaciones como la conducción autónoma, la realidad virtual y aumentada o los robots de servicio.
“Incrementar la robustez del SLAM extendería su uso y aplicación, haciendo las máquinas más seguras y con menor intervención humana. Este ha sido el fin último de esta tesis”, explica.
El interés que ha suscitado el trabajo de esta tesis dentro del mundo académico se refleja en el gran número de citas recibidas, más de 800 en las distintas publicaciones. Las múltiples aplicaciones que tiene el SLAM en el mundo real, especialmente en la navegación autónoma y realidad virtual, han llegado ya a la empresa. Distintas versiones de software desarrolladas durante esta tesis han sido comercializadas a compañías de América, Europa y Asia, “lo que evidencia la novedad y la utilidad de nuestro trabajo”, añade Carlos Campos.
¿Qué aporta la tesis doctoral?
En una primera parte de esta tesis, se combinan sensores inerciales y visuales para incrementar la robustez del SLAM ante movimientos rápidos, oclusiones breves o entornos con poca textura. Se proponen dos técnicas diferentes para inicializar el sistema de manera rápida, las cuales han sido integradas en un nuevo sistema de SLAM visual inercial, acuñado como ORB-SLAM3. Este sistema, desarrollado de manera conjunta con otros estudiantes de doctorado, representa la mayor contribución de esta tesis y es el sistema de SLAM visual-inercial de código abierto más completo hasta la fecha. Basado en una formulación de Máximo a Posteriori, ORB-SLAM3 funciona con cámaras monoculares o estéreo, estenopeicas o de ojo de pez, además de ser el sistema más preciso en distintos experimentos de evaluación pública.
En una segunda parte de la tesis, se explora la aplicación de técnicas de aprendizaje profundo (Deep learning) para mejorar la robustez del SLAM. Primero se ha desarrollado un sistema SLAM estéreo para entornos dinámicos. Los objetos dinámicos son segmentados mediante una red neuronal, lo que permite estimar y hacer seguimiento de los objetos en movimiento, al mismo tiempo que se mejora la estimación de la trayectoria de la cámara. En segundo lugar, desarrolla un SLAM monocular basado en predicciones de profundidad a través de redes neuronales, lo que permite obtener la escala verdadera del entorno y aumentar la precisión respecto a un sistema monocular clásico.
Carlos Campos ha formado parte del grupo de Robótica del I3A durante cuatro años, mientras realizaba su tesis doctoral dirigida por el investigador Juan Domingo Tardós. Este premio “es el broche final a una despedida perfecta de la Universidad”.
Estudió Ingeniería Industrial en la Universidad de Zaragoza y en la Universidad de Toulouse Ingeniería de Telecomunicaciones. Después volvió a hacer el doctorado a Zaragoza, una etapa en la que, a pesar de las dificultades, “creo que es la mejor decisión que he tomado en lo profesional, hacer una tesis en el grupo de Robótica”, subraya. Además, “tener un doctorado sobre visión por ordenador está muy bien valorado y te da oportunidades tanto en la Universidad como en la empresa”.
De hecho, ahora trabaja en Madrid como ingeniero de visión por ordenador, aplicando la tecnología SLAM en la startup Arcturus Industries, en el sector de los videojuegos.
Información de los premios: https://jautomatica.es/2022/premios.html