La tecnología de Google para "entender" las imágenes
- Los ordenadores aprenden a ver qué hay en las imágenes y dónde
- Google publica los detalles de su sistema para "acelerar su desarrollo"
- Estas tecnología mejoran la visión artificial para robots y coches autónomos
El desafío académico relacionado con la visión artificial, la Imagenet Large Scale Visual Recognition Challenge 2014 (ILSVRC 2014) fomenta el desarrollo de tecnologías capaces de "entender" las imágenes; entender en el sentido de conseguir que los ordenadores mediante algoritmos identifiquen qué objetos aparecen en una fotografía, y dónde.
Google ha participado este año con el equipo GoogLeNet y ha detallado su sistema de reconocimiento de imágenes que ha sido el primer clasificado por su capacidad para detectar y clasificar los objetos que aparecen fotografiados con una velocidad y precisión que duplican el logro del vencedor de la pasada edición de este desafío.
Para que el sistema sea capaz de funcionar primero debe aprender a partir de imágenes etiquetadas de forma manual, con miles de imágenes procedentes de Flickr cuyos contenidos está identificados según los objetos o figuras que aparecen en ellas.
A partir de ahí los sistemas deben de ser capaces de clasificar las imágenes conforme a las etiquetas con las que se corresponden como un primer paso para evaluar la capacidad del algoritmo utilizado.
Reconocer 'qué' aparece en una imagen y 'dónde' se sitúa
Más complejo y sofisticado es la clasificación con localización, que consiste en que el algoritmo debe determinar, además de las etiquetas correspondientes a cada imagen, dónde se localizan los objetos o etiquetas dentro de la imagen, distinguiendo si confluyen diferentes formas a la vez.
El desafío de detección utiliza imágenes en las que los objetos etiquetados de forma difícilmente distinguibles, bien porque aparecen en un tamaño pequeño o porque sólo se muestran parcialmente o en condiciones de luz complicadas.
La participación de Google es “abierta”, lo que significa que el método utilizado y los detalles de funcionamiento se hacen públicos de tal modo que otros investigadores “pueden colaborar en su desarrollo y acelerar los progresos”.
El análisis de imágenes tienen numerosas aplicaciones e influye directamente en el progreso de la visión artificial para robots, buscadores y coches autónomos; y en general, "en cualquier sistema en el que resulte útil entender ‘qué’ aparece en una imagen y ‘dónde’ aparece", explica Google.