• Home / Noticias / Pablo Arbeláez participará en CVPR 2020, la mayor conferencia mundial de visión por computador
  • Pablo Arbeláez participará en CVPR 2020, la mayor conferencia mundial de visión por computador

    • Pablo Arbeláez participará en CVPR 2020, la mayor conferencia mundial de visión por computador
      Pablo Arbeláez participará en CVPR 2020, la mayor conferencia mundial de visión por computador
31/03/2020

Su estudiante doctoral Juan Carlos León también participará en la conferencia.

Pablo Arbeláez, profesor asociado de Ingeniería Biomédica y su estudiante doctoral, Juan Carlos León; participarán en CVPR 2020, la mayor conferencia mundial de visión por computador, que se celebrará en junio de 2020 en Seattle, Washington (Estados Unidos).

El comité científico de la conferencia aceptó el artículo de los investigadores que es producto de una colaboración con Adobe en edición de video con el uso de Inteligencia Artificial.

El objetivo principal del proyecto de los investigadores uniandinos es detectar lo que se conoce como "hablantes activos" que son las personas que están hablando y son visibles en un video arbitrario.

De esta manera la tarea se divide en tres pasos: primero localizar todas las personas en un video, segundo identificar si el audio corresponde a la voz humana y tercero identificar entre todas las personas cual o cuales están hablando.

La tarea suena extraña, pero es muy útil en la edición de video debido a que permite alinear automáticamente segmentos del video, así como enfocar al hablante activo. Por esta razón, el trabajo se realizó durante una pasantía en la división de investigación de Adobe Inc. y en colaboración con el laboratorio IVUL de la Universidad de KAUST (Emiratos Árabes Unidos).

Hoy en día, los métodos más avanzados para este problema se basan en analizar un único rostro y estimar una correspondencia entre el movimiento de la cara y la señal de audio. El método propuesto por los investigadores biomédicos parte de la misma base, pero es el primero que logra integrar información de múltiples rostros.

Esta solución se logró mediante dos técnicas complementarias: por un lado, una red neuronal siamesa que nos permite fusionar información visual (imágenes) y la señal de audio y por otro lado, usar una técnica conocida como "auto-atención" que básicamente le asigna un peso (importancia) a todos los rostros detectados en una escena. Esta combinación de fusión y auto-atención permite estimar la probabilidad que una persona sea el hablante activo analizando la escena completa, no un solo rostro.

Los resultados de esta investigación han superado a soluciones propuestas por Google, la Academia de Ciencias de China, y estudiantes del grupo de visión de Oxford, a la vez que utiliza muchos menos recursos computaciones, un aspecto que es crítico en el análisis de video dado el tamaño de los datos de entrada.

La participación uniandina en esta importante conferencia es un logro de la línea de investigación de Visión Artificial Biomédica que lidera el profesor Arbeláez en la Facultad de Ingeniería.

Noticias Recientes

  • Espejos de agua, ciencia y saberes ancestrales para sanar los humedales
    Al sur de Bogotá, entre las localidades de Tunjuelito y Ciudad Bolívar, se oculta un lugar cargado de historia,...
  • SentiSoft gana el podio del Pitch Day en la Semana de la Innovación
    SentiSoft, el proyecto que busca mejorar los procesos de selección para el sector TI a través de una plataforma que le...
  • Le dimos la bienvenida a Aura, la primera humanoide de una universidad en Colombia
    Con un evento lleno de emoción y expectativa, la Facultad de Ingeniería de la Universidad de los Andes presentó...
  • Foro IA-Conectando con el futuro: retos de la transformación laboral
    La inteligencia artificial, la analítica de datos y la automatización ya no son ideas del futuro: son la nueva realidad...
  • Analytics Forum 2025: el futuro de los datos
    Vivimos en una era en la que los datos se han convertido en uno de los recursos más valiosos para la humanidad. Pero...
  • Lanzamos el nuevo pregrado en Ciencia de Datos, una carrera del presente para resolver los desafíos del futuro
    En un mundo en el que los datos se han convertido en uno de los capitales más valiosos de la humanidad y donde lo...
  • Ideas que inspiran, así crece la investigación FAPA
    Con el propósito de dar a conocer los avances de los proyectos de investigación financiados por el Fondo de Apoyo a...
  • Selva, el emprendimiento estudiantil biomédico que deja huella internacional
    Andrea Gómez y Laura Beltrán, ingenieras biomédicas y biólogas egresadas de la Universidad de los Andes, lideran Selva...
  • GeoPark nombra a Felipe Bayón como su nuevo CEO
    El ingeniero mecánico uniandino, Felipe Bayón, fue nombrado como nuevo Chief Executive Officer y miembro del Directorio...
  • Paula Porras, la ingeniera de la paz
    Cuando Paula Porras tuvo que tomar la decisión de qué estudiar no tenía claro que camino seguir. Desde pequeña le...
  • Ambiente, peor indicador de habitabilidad en Bogotá
    ¿Qué tan chévere es vivir en Bogotá? Un equipo de investigadores de las facultades de Ingeniería y Medicina de la...
  • Investigadores uniandinos y de la Universidad El Bosque pioneros en mejorar interpretación y conocimiento de la Lengua de Señas Colombiana
    En Colombia, cerca de 500 mil personas son sordas y la lengua de señas no solo es su forma de comunicarse, si no...