让我们想象一下这样的场景,一片一望无际的麦田中种着一棵橡树,以及万里无云的天空所营造出的一个阳光明媚的午后。当大多数人读到这句话时,可以很容易就在他们的脑海里想象出这样的田园景象。这种人类所独有的能力可以让你在读到一个场景的描述后,想象出这样的场景。不过,这一珍贵的技能可能不再是我们人类所独有的了。
这类在你看来可能想象力远远超越了当今计算机能力的事情,将由来自日本东京大学的Hiroharu Kato 和 Tatsuya Harada 所带来。
最近,他们公布了一台计算机,它能将一个对物体的描述转换成图像。这就是对想象力所作出的一个完美定义。
可以肯定的是,这些计算机的想象力还比较简单,甚至有时十分混乱且没有任何意义。但不可否认的是,这台计算机代表着计算机的创造力显著地向前迈进了一大步。
计算机科学家长期以来都是利用文字管理来处理图像,这一方式十分直接,例如:用户在搜索引擎中输入一个单词或一系列单词,并利用关键词得到高度相关的图像。这并不是因为计算机拥有特殊的能力来理解用户输入的关键词。事实上,通过关键词来得到结果的技术已经非常强大,但与此相反,在处理图像时就无法发挥出等效的能力。
因此,几年前计算机科学家开始将图像当作一系列像素来对待,图像会被分成一系列的短序列,每个序列对应于图像的一个特定部分。例如,一个短序列可能对应于一个杯子的边缘、皮肤的某个区域或天空的某部分。
这些短序列对人类可能没有什么意义,但对计算机而言就能将它们视为关键词。因此,一台电脑分析一张图片就能通过计算序列的数量以及出现的频率,就像是通过计算文档中词语的出现频率一样。计算机科学家称这些序列为“视觉关键词”。
Kato 和 Harada 的方法则是反其道而行,想要鉴于视觉关键词的分配,而得到原始图像。这是一个非常困难的技术问题,虽然视觉关键词可以描述图像的一部分,它并不能解释在图像中的什么位置。
Kato 和 Harada 用两种不同的方法来处理这一问题。
首先是评估每个视觉关键词如何和其他视觉关键词组合在一起。这一过程并非十分简单,因为视觉关键词没有任何明显的形状,因此并不能像拼图一样适合被组合在一起。
第二种方法是评估给定的视觉关键词应该出现在图象特定部分的可能性。例如,表示天空区域的视觉关键词更可能出现在图像的顶部。
有了以上两种方法的铺垫,最后 Kato 和 Harada 会使用自己的方法让计算机能够明白人类普通的日常句子,并生成相应的图像。他们会把语句中的每一个单词转换成视觉关键词,然后再将关键词转换成图像。而把普通的单词转换成视觉关键词同样又是另一个棘手的任务。
整个项目困难重重,但这是一个充满希望的开端,并希望能够开辟一条通往新世代的图像创建系统之路。
via technologyreview