摄影师除了要苦恼如何把作品拍好,还要为如何管理大量照片而烦恼。每次拍完一大堆照片,回去要后期之外,还要在相片管理软件内,把照片分类、存档。如果要进一步方便以后搜寻照片,更要为每张照片加上关键字和照片描述,这些整理的工作都大大加重了摄影师的工作负荷。Google Research之前已经发布了一项新技术,可以侦测相片中的物件和所在场所,加强图片搜寻的功能,将来或者也可以减轻摄影师为照片加上关键字的工作负担。最近,Google Research再度发布正在开发的新技术,声称能侦察图片,再为图片作出文字描述。
类似“A person riding a motorcycle on a dirt road”、“A herd of elephants walking across a dry grass field”的相片描述,正是由Google Research开发的技术自动生成出来的。新技术结合了计算机视觉技术(computer vision)和自然语言处理(natural language processing),先以卷积神经网络(Convolutional Neural Network,CNN)技术对影像进行分析,提取影像中的信息,再由递归神经网络(Recurrent Neural Network,RNN)产生文字。这技术不单可以辨认相片中的物件,更可侦察相片的场景,再产生合乎语境的文宇描述。
从Google Research提供的技术评估结果可见,新技术在侦测图像和生成文字的效能上仍有偏差,期望往后系统可以通过更强大的数据库,提供更准确的自动生成图片描述,相信这对图片搜寻,以及摄影师为相片加上描述文字的工作都大有帮助,另外,相信亦能有助视障人士阅读图片。
新技术为这张照片产生的描述:Two pizzas sitting on top of a stove top oven