Enfocar objetos y tenerlos en Photoshop: este proyecto nos enseña una evolución del copiar y pegar

Copiar y pegar con objetos reales. Enfocar un libro, una prenda de ropa o una planta con la cámara del móvil y poder pegar esa imagen del objeto en Photoshop. Es el proyecto creado por el diseñador y programador Cyril Diagne de Google Arts y ex-director del ECAL Media & Interaction Design de la Universidad de Lausanne.

La aplicación combina reconocimiento de imágenes y machine learning para poder elegir elementos de nuestro entorno y pegarlos en un software de edición de imagen. Por el momento únicamente funciona con Photoshop y se encuentra en fase de desarrollo, no disponible de manera comercial, pero según explica el creador en el futuro podría funcionar con otros programas de edición.

En Xataka

Machine Learning y Deep Learning: cómo entender las claves del presente y futuro de la inteligencia artificial

Una gran demostración de las posibilidades de la cámara del móvil y la IA

El creador ha explicado en su cuenta personal de Twitter cómo funciona el proyecto. Se basa en tres módulos independientes. En primer lugar tenemos la aplicación para el móvil, encargada de enfocar al objeto que queramos copiar y poder capturar la imagen que luego será trasladada.

4/10 - Cut & paste your surroundings to Photoshop

Code: https://t.co/cVddH3u3ik

Book: @HOLOmagazine
Garment: SS17 by @thekarentopacio
Type: Sainte Colombe by @MinetYoann @ProductionType
Technical Insights: ↓#ML #AR #AI #AIUX #Adobe #Photoshop pic.twitter.com/LkTBe0t0rF
— Cyril Diagne (@cyrildiagne) May 3, 2020

La segunda parte es el servidor que actúa como interfaz entre la aplicación móvil y Photoshop. En este punto es donde encuentra la posición en la pantalla utilizando Screenpoint. Finalmente tenemos el servicio de eliminación del fondo y la detección del objeto. Y es que con esta aplicación lo que trasladamos a Photoshop es un objeto en concreto, no toda la imagen.

Para la detección del objeto se ha utilizado un sistema basado en machine learning que está configurado sobre el servidor. Se trata de BASNet ('Boundary-Aware Salient Object Detection'), un sistema abierto de redes neuronales desarrollado por Xuebin Qin durante la CVPR 2019.

And again, the OpenCV SIFT trick to find where the phone is pointing at the screen.

I also packaged it as a small python library: https://t.co/en0EyGSklp

Send a camera image + a screenshot and you get accurate x, y screen coordinates! pic.twitter.com/OOCFrrZseZ
— Cyril Diagne (@cyrildiagne) May 3, 2020

Según describe el autor, la latencia es aproximadamente de 2,5 segundos para cortar el objeto y de unos 4 segundos para pegarlo en Photoshop.

La combinación de estas tecnologías no es nueva. Es una de las bases de aplicaciones como YouCam Makeup que permiten identificar un objeto, en ese caso nuestro rostro, y aplicar un efecto.

El mes pasado Google nos mostraba MediaPipe Objectron, una tecnología móvil para detectar objetos 3D en tiempo real y modelizarlos para crear imágenes.

En Xataka | La realidad aumentada ante el dilema de las promesas incumplidas