22.05.08 |
Новая система распознавания картинок облегчит жизнь поисковым роботам
|
Сотрудники Массачусетского технологического института (MIT) разрабатывают принципиально новую технологию каталогизации и машинного поиска изображений, сообщает Compulenta. По словам доцента Лаборатории информатики и искусственного интеллекта MIT Антонио Торральбы, он и его коллеги пытаются определить минимальное количество информации для каждого графического изображения, которое позволит (машине или человеку) получить представление о его содержании. Иными словами, речь идёт о по возможности кратком цифровом коде, которым можно было бы представить содержимое картинки.
О полноценном представлении говорить не приходится, да и цель состоит в ином: учёные пытаются разработать алгоритм, который позволит автоматически каталогизировать миллиарды изображений во Всемирной сети исходя из их содержания. Это позволит, например, существенно усовершенствовать автоматический поиск изображений.
"Мы пытаемся представить изображения в виде очень короткого кода, - говорит Торральба, - так что если у двух изображений такие коды оказываются похожи, то и сами они, скорее всего, имеют между собой определённое сходство, например, изображают примерно одинаковые объекты примерно в одинаковой конфигурации". Таким образом, если одна картинка снабжена описывающим её содержание названием или тэгом alt, то другие изображения, чьи репрезентные цифровые коды оказываются сходны с кодом первой, по мнению исследователей, будут отображать такие же объекты, что и первая. И тогда термины (названия и понятия), ассоциируемые с первой картинкой, можно экстраполировать на другие, непоименованные, изображения.
"Мы можем понять, что изображено на картинках даже когда их разрешение очень мало, поскольку мы многое знаем о самих картинках, - говорит Торральба. - Как правило, человеку достаточно, чтобы разрешение картинки составляло 32 на 32 точки, чтобы распознать её содержание". В свою очередь, миниатюры в поисковике Google имеют размеры 100х100 точек.
Торральба и его соратники придумали математический аппарат, который позволяет сократить объём полезных данных, так что каждое изображение можно представить в виде кода размером в 256-1024 бита, при этом содержимое изображения остаётся хотя бы частично распознаваемым. В результате, с помощью своей системы кодирования, Торральбе и его коллегам удалось представить 12,9 миллионов изображений, скачанных из интернета, в виде массива объёмом всего лишь 600 мегабайтов данных. По словам исследователей, их система весьма неплохо справляется с определением нескольких наиболее распространённых типов объектов - людей, машин, растений и строений. С более "экзотическими" образами она справляется хуже. По словам Торральбы, его исследования по-прежнему находятся на ранних этапах, и что проблемы с определением нечасто встречающихся объектов, скорее всего, будут оставаться всегда.
Источник: Compulenta
|