Google libera la API de Cloud Vision

0
307

Google tiene una demo de Cloud Vision y su API en la nube, uno de los servicios que ofrecen a desarrolladores, con la que se pueden fácilmente arrastrar-y-soltar fotos a ver qué es lo que «adivina». Abre la demo, arrastra una foto, demuestra que no eres un robot haciendo un clic (¡oh, la ironía!), y listo.

Básicamente la demo de Cloud Vision muestra un resumen rápido de toda la información que puede extraer de una imagen, organizada en varias pestañas: rostros, objetos, textos, etcétera. De este modo se puede ver si reconoce personas en la fotografía o no, y si los rostros son identificables, cuáles son sus gestos y características: disfrutando, tristes, enfadados, sorpresa… Con algoritmos como este funcionan las cámaras de fotos y también los sistemas de seguimiento que hay en algunas tiendas para estudiar el comportamiento de los clientes, entre otros.

El algoritmo también puede identificar objetos y situar la imagen en su contexto y categorizarla: ¿es una estación de metro? ¿hay coches? ¿árboles? En el ejemplo clasifica la imagen dentro de la categoría transporte, sabe que es una estación de metro y que en algún lugar aparece carteles publicitarios (en este caso se equivoca, son meramente informativos). A cada característica se le asigna un porcentaje entre 0% y 100% (certeza). También utiliza una clasificación similar llamada Entidades Web, en este caso de 0 a 1 (transporte rápido, anuncios, estación intercambiadora).

Otra cosa que calcula son los colores dominantes y también hay información sobre el Safe Search (búsqueda segura) que básicamente es la forma en que Google filtra las imágenes para menores. Hay varias categorías ahí (ninguna en esta foto): adultos, falsificación, médicas, violencia y «picante».

Finalmente hay otra categoría interesante que son los textos. La API lee todo lo que se pueda leer en la imagen y lo convierte a texto. Es una especie de OCR razonablemente bueno, sobre todo teniendo en cuenta los tamaños de los textos en las fotografías y que suelen estar borrosos, estropeados o en ángulos extraños. Si lo pruebas verás que funciona con distintos tipos de vehículos, marcas, modelos y matrículas sin mayores problemas.

Lo interesante de esta herramienta es darle fotos y ver qué es capaz de hacer. Es divertido probar fotos de la calle o de interiores y ver qué cantidad de textos nos pasa desapercibidos a los humanos. También qué cosas es capaz de clasificar un algoritmo respecto a lo que teníamos ni la menor idea: ¿vehículo híbrido con solo ver un Toyota Prius aparcado en la lejanía? Cara 6: alegre¿Acaso no había sólo dos personas en la foto? (Había dos en primer plano, pero también otras cuatro detrás, en el fondo, y una sonreía claramente).

Aunque el problema de estas cosas no suele ser que exista un algoritmo que funcione estupendamente… sino que se pueda aplicar masivamente a cantidades ingentes de datos, imágenes y vídeos obtenidos muchas veces sin consentimiento o sin respeto a la privacidad.

Y que aun sabiendo que se podrá usar para hacer el bien en muchas áreas, indefectiblemente también sabes que se usará para hacer el mal porque las personas y las corporaciones somos como somos.

Foto del avatar

Comments are closed.