• Home / Noticias / Pablo Arbeláez participará en CVPR 2020, la mayor conferencia mundial de visión por computador
  • Pablo Arbeláez participará en CVPR 2020, la mayor conferencia mundial de visión por computador

    • Pablo Arbeláez participará en CVPR 2020, la mayor conferencia mundial de visión por computador
      Pablo Arbeláez participará en CVPR 2020, la mayor conferencia mundial de visión por computador
31/03/2020

Su estudiante doctoral Juan Carlos León también participará en la conferencia.

Pablo Arbeláez, profesor asociado de Ingeniería Biomédica y su estudiante doctoral, Juan Carlos León; participarán en CVPR 2020, la mayor conferencia mundial de visión por computador, que se celebrará en junio de 2020 en Seattle, Washington (Estados Unidos).

El comité científico de la conferencia aceptó el artículo de los investigadores que es producto de una colaboración con Adobe en edición de video con el uso de Inteligencia Artificial.

El objetivo principal del proyecto de los investigadores uniandinos es detectar lo que se conoce como "hablantes activos" que son las personas que están hablando y son visibles en un video arbitrario.

De esta manera la tarea se divide en tres pasos: primero localizar todas las personas en un video, segundo identificar si el audio corresponde a la voz humana y tercero identificar entre todas las personas cual o cuales están hablando.

La tarea suena extraña, pero es muy útil en la edición de video debido a que permite alinear automáticamente segmentos del video, así como enfocar al hablante activo. Por esta razón, el trabajo se realizó durante una pasantía en la división de investigación de Adobe Inc. y en colaboración con el laboratorio IVUL de la Universidad de KAUST (Emiratos Árabes Unidos).

Hoy en día, los métodos más avanzados para este problema se basan en analizar un único rostro y estimar una correspondencia entre el movimiento de la cara y la señal de audio. El método propuesto por los investigadores biomédicos parte de la misma base, pero es el primero que logra integrar información de múltiples rostros.

Esta solución se logró mediante dos técnicas complementarias: por un lado, una red neuronal siamesa que nos permite fusionar información visual (imágenes) y la señal de audio y por otro lado, usar una técnica conocida como "auto-atención" que básicamente le asigna un peso (importancia) a todos los rostros detectados en una escena. Esta combinación de fusión y auto-atención permite estimar la probabilidad que una persona sea el hablante activo analizando la escena completa, no un solo rostro.

Los resultados de esta investigación han superado a soluciones propuestas por Google, la Academia de Ciencias de China, y estudiantes del grupo de visión de Oxford, a la vez que utiliza muchos menos recursos computaciones, un aspecto que es crítico en el análisis de video dado el tamaño de los datos de entrada.

La participación uniandina en esta importante conferencia es un logro de la línea de investigación de Visión Artificial Biomédica que lidera el profesor Arbeláez en la Facultad de Ingeniería.

Noticias Recientes

  • Álvaro Achury, el guardián de Aura y de una ingeniería con propósito
    La curiosidad es, sin duda, el común denominador de los ingenieros. Es su impronta más relevante, y Álvaro no es la...
  • 5 ingenieros uniandinos entre los 30 menores de 30 más exitosos de Forbes
    Durante más de una década, la revista Forbes ha reconocido a jóvenes menores de 30 años que, con ideas audaces y...
  • Así vivimos la Escuela de Verano para Jóvenes
    ¿Te imaginas vivir dos semanas como si ya fueras universitario? Eso fue precisamente lo que experimentaron cerca de 100...
  • “La ingeniería es una caja de herramientas para hacer realidad lo que imaginamos”, Daniela Uribe
    Desde muy pequeña supo que su camino estaba en la ingeniería. Quizás escuchar a sus papás hablar sobre cómo resolvían...
  • “Cambiar el mundo aportando mi granito de arena desde mi esquina del planeta”: Federico Melo
    Federico Melo Barrero es un apasionado del conocimiento, un ingeniero de sistemas y computación que combina el rigor de...
  • La programación como un lenguaje universal
    Desde hace más de cuatro décadas, la Universidad de Stanford perfecciona una metodología pedagógica que ha cambiado la...
  • La arquitectura de software como herramienta de transformación
    Por segundo año consecutivo, el Departamento de Ingeniería de Sistemas y Computación de la Universidad de los Andes,...
  • Carlos Angulo Galvis: el ingeniero que soñó y construyó una universidad de clase mundial
    Con profunda tristeza, la Facultad de Ingeniería de la Universidad de los Andes lamenta el fallecimiento del ingeniero...
  • Semana de Bienestar 2025: una pausa para reconectar con nosotros mismos y con los demás
    Entre el 16 y el 20 de junio, la Facultad de Ingeniería se llenó de momentos que nos invitaron a hacer una pausa,...
  • Jurui, un proyecto que une tradición y modernidad, ciencia y cultura, sueños y realidades
    Al oriente de Colombia, en la frontera con Venezuela, se encuentra un territorio inmensamente rico en cultura,...
  • El origen: cuando diseño e ingeniería hacen “match”
    El primer maniquí robótico que se adapta a cuerpos reales —no ideales—, diseñado desde la intersección entre ingeniería...
  • “El humano siempre debe estar en el centro de las decisiones”: Alberto Indacochea, director de IA en IBM Latinoamérica
    La inteligencia artificial, la analítica de datos y la automatización ya no son ideas del futuro: son la nueva realidad...