Reconocimiento de la actividad humana mediante aprendizaje profundo en imágenes de vídeo y sobre dataset multimoda

Alumna investigadora: Ángela González de Diego

Centro: Departamento de Teoría de la Señal y Comunicaciones e Ingeniería Telemática. E.T.S. Telecomunicación

Profesor/tutor: Mario Martínez Zarzuela

Tareas realizadas:

El campo del Reconocimiento de la Actividad Humana (HAR) se encuentra en auge debido a la creciente demanda de análisis de vídeo aplicado al ámbito médico. No obstante, la tarea de predicción de actividades en una secuencia de vídeo no es trivial, puesto que existen numerosos factores como la iluminación o el ángulo de captura, que afectan al reconocimiento.

El objetivo del trabajo es poder realizar este Reconocimiento de la Actividad Humana haciendo uso de Aprendizaje Profundo (Deep Learning), más concretamente, mediante una Red Neuronal. La red utilizada permite ejercer la tarea de clasificación de secuencias de imágenes. Para la extracción de características de las imágenes se emplean capas convolucionales 3D, asimismo, se emplean bloques residuales para mitigar el problema del desvanecimiento de gradiente observado en redes con un elevado número de capas. Trabajos previos han realizado estimación de poses de las mismas secuencias de vídeo, así como han llevado a cabo el HAR mediante Aprendizaje Profundo haciendo uso de datos provenientes de sensores.

Debido al aumento en el uso de sistemas de captura ópticos para la adquisición de datos, han surgido grandes datasets de referencia. No obstante, el trabajo se centra en el reconocimiento de actividades con relevancia en el ámbito médico, razón por la cual se ha hecho uso del dataset adquirido por el grupo de investigación. En consecuencia, se ha llevado a cabo el reconocimiento de 13 actividades realizadas por 37 sujetos diferentes.

El entrenamiento de la red para dicho dataset ha sido realizado tanto desde cero, como mediante el uso de transfer learning. Se ha observado como el empleo de un modelo pre-entrenado permite llegar al punto de convergencia de la red más rápidamente, ahorrando además capacidad computacional. Además, se muestran las dificultades del reconocimiento de datos provenientes de sistemas de captura ópticos, como son la dificultad en clasificación de actividades con movimiento reducido, o actividades bimanuales.

Objetivos alcanzados:

  • Se ha trabajado tanto con el sofware Jupyther Lab como con TAO Toolkit y adquirido el dominio necesario para poder ejecutar redes neuronales que lleven a cabo el reconocimiento de actividades.
  • Se han ejecutado scripts en Python para llevar a cabo la organización de los datos a introducir a la Red Neuronal.
  • Se han analizado los resultados obtenidos y modificado el valor de los hiperparámetros convenientemente para alcanzar los resultados más favorables.
  • Se ha hecho un análisis de los resultados finales obtenidos para cada uno de los tres modelos empleados para el HAR.

Sectores de aplicación:

El sistema médico ha sido uno de los grandes beneficiados del desarrollo del reconocimiento de acciones y de las innovaciones provenientes del IoT (Internet of Things). La investigación ha tendido al desarrollo de sistemas que permitan llevar a cabo la monitorización del paciente de forma remota, dado que cuanto mayor sea el seguimiento físico y psicológico disponible, mejor será la recuperación, rehabilitación y menor tiempo tendrá que permanecer ingresado el paciente en el hospital, mejorando así su calidad de vida.

Metodología utilizada:

Para poder alcanzar los objetivos planteados, ha sido necesario realizar una búsqueda bibliográfica sobre captura de movimientos y reconocimiento de acciones. Se ha llevado a cabo una revisión de las bases de datos disponibles para el HAR mediante sistemas de captura ópticos y se ha realizado la elección de la base de datos multimodal a utilizar para llevar a cabo el reconocimineto de acciones. A continuación, se han reacondicionado las bases de datos a utilizar. Se realizaron diferentes pruebas buscando los valores óptimos de los hiperparámetros de la red y finalmente se llevó a cabo el análisis de los diferentes resultados obtenidos, la comparación con los resultados de trabajos previos y se extrajeron las conclusiones pertinentes.