Un enfoque basado en la visión para la detección de caídas utilizando múltiples cámaras y redes neuronales convolucionales: un caso de estudio en UP-Fall Detection Data-Set
Actualmente, el reconocimiento automático de caídas humanas es un tema de investigación importante para la visión por computadora y la comunidad de la inteligencia artificial. Para el análisis de imágenes, es común usar un enfoque basado en visión para la detección de caídas y sistemas de clasificación debido al aumento exponencial actual en el uso de cámaras. Además, las técnicas de deep learning han revolucionado las técnicas basadas en visión. Han sido consideradas robustas y confiables en la detección y clasificación de problemas, principalmente usando Redes Neuronales Convolucionales (CNN). Recientemente, nuestro grupo de investigación lanzo un nuevo Data Set multimodal para la detección de caídas (Up-Fall Detecction dataset), y se requieren diferentes estudios de enfoques de modalidades para la detección y clasificación de caídas. Centrándonos solo en un enfoque basado en visión, en este articulo presentamos un sistema de detección de caídas basado en 2D CNN como método de inferencia y varias cámaras. Este enfoque analiza imágenes en marcos de ventana de tiempo fijo que extraen características utilizando un método de flujo óptico que obtiene información de movimiento relativo entre dos imágenes consecutivas. Para resultados experimentales, probamos este enfoque en nuestro dataset público. Los resultados mostraron que nuestra propuesta de enfoque basado en la visión múltiple detecta caídas humanas que alcanzan un 95.64% de precisión con una arquitectura de red CNN simple en comparación con otros métodos de vanguardia.