Primary links
 

Перспективные поисковые технологии

Менее чем за 10 лет на наших глазах произошло радикальное обновление сети Интернет. В настоящее время количество пользователей достигло 1.5 миллиарда человек (в России – 35 млн.), что составляет весьма существенную часть всего человечества. Эта информационная среда все активнее теснит другие, ставшие уже традиционными источники информации, и в первую очередь телевидение.

Так в Австралии местные жители проводят времени в интернете больше, чем тратят на просмотр телепередач. Предпосылками для такого прорыва стали распространение широкополосного доступа в интернет и создание аппаратно-программных средств, которые максимально демократизируют создание и размещение контента в глобальных сетях. В настоящее время количество накопленных в мире гипертекстовых документов, индексируемых поисковыми системами (это только поверхностная часть всего объема) составляет по оценкам от 20 до 30 миллиардов документов, при этом в день поисковая система Google (http://www.google.com) обрабатывает более 50 млн. запросов. Реальное же количество документов, включая и динамически формируемые на основе корпоративных баз данных (глубинный Веб) как минимум на 2 порядка больше. Помимо такого резкого увеличения объема доступных в сети WWW документов произошло и изменение структуры контента в строну увеличения веса мультимедиа-данных и rich media. Пользователи YouTube ежедневно скачивают до 100 млн. видео роликов, и, кроме того, ежедневно в этом хостинге размещается 65 тыс. новых.

Еще один интересный феномен, который сформировался буквально за последние 5 лет и громко о себе заявил – это социальные сети, охватывающие блоги, сети медиаресурсов, сети персональной информации (MySpace, LinkeIn, Facebook, Мой круг, Одноклассники и др.), системы закладок (del.icio.us), wiki-энциклопедии и другие. Только одних сетевых дневников (блогов) в мире сейчас насчитывается более 100 миллионов (в Рунете – более 2 миллионов), причем каждый день добавляется более 120 тысяч новых дневников.
Серьезные трансформации испытывают и рекламные технологии, поскольку интернетсреда помимо огромной аудитории предоставляет технологические возможности для фокусирования рекламы на строго определенной целевой аудитории. Что интересно, затраты компаний на интернетрекламу впервые превысили затраты на рекламу в печатных изданиях, при том, что себестоимость такой рекламы существенно ниже, чем для других медийных технологий.

Все эти инновации и объемы накопленной общедоступной в глобальной сети информации ставят серьезный вызов поисковым технологиям, серьезно трансформируя сложившиеся ранее подходы и вынуждая исследователей и разработчиков искать принципиально новые методы решения как уже существовавших ранее так и вновь возникающих задач.
Поиск изображений составляет порядка 7-10% от всего количества поисковых запросов в интернете. К сожалению, сложившиеся технологии поиска релевантных изображений практически никак не связаны с непосредственным анализом содержимого этих изображений. Впрочем, в последние годы проводятся очень интенсивные исследования посвященные поисковым технологиям по контенту изображений, и некоторые их результаты в новых сервисах популярных поисковых систем, например в Яндекс. Картинки (общее количество картинок в базе этой системы превысило 270 миллионов). В конце 2007 года этот сервис предоставил пользователям возможность поиска изображений с учетом доминирующего цвета. На рис. 1 представлена диаграмма распределения преобладающих цветов по базе картинок Яндекс.

Интересным практическим начинанием являются проекты Blinkx (http://www.blinkx.com) и Everyzing (http://www.everyzing.com), использующие технологии поиска видео. Сервис blinkx Remote предлагает пользователям поиск телепередач по ключевым словам на основе технологий распознавания речи, индексирования аудиодорожки видеозаписей и анализа видеокадров. Сервис blinkx Remote позволяет пользователю оставаться в курсе самых последних новостей и спортивных событий по всему миру, не тратя время на переключение между каналами, а с помощью с помощью скринсейвера blinkx Beat .
Из интересных проектов в Рунете можно назвать проект photodate.ru, который позволяет искать найти человека по фотографии на сайте знакомств.

В контексте движения информационных технологий к мобильности в исследовательском подразделении компании Google большое внимание уделяется исследованиям и разработкам голосовых технологий (т.е. без использования клавиатуры), которые могли бы служить в качестве интерфейса как для ввода запросов пользователей так и представления найденной по запросу информации. Близкой к этой задаче является задача поиска музыкальных файлов по заданному фрагменту или нотным записям.
За последние годы появилось много интересных проектов для поиска в социальных сетях. В Рунете среди них выделяется “Пульс блогосферы” (http://blog.yandex.ru/pulse/) и “Поиск по блогам” (http://blog.yandex.ru/).
Не остались без внимания информационно-поисковые технологии и на факультете компьютерных наук Воронежского госуниверситета. С 2002 г. на факультете читается спецкурс “Информационно-поисковые системы”, который завоевал первое место в конкурсе “Класс-2006” (http://company.yandex.ru/class/news.xml). Преподавателями факультета проводятся исследования по поисковой тематике. Так по итогам конкурса “Интернет-математика-2006” 2 гранта из 31 получили проекты:
§ Сычева А. В., Баженова М. М. “Автоматическое пополнение веб-каталога на основе идентификации веб-сообществ с последующей фильтрацией документов по контенту” (http://download.yandex.ru/IMAT2007/sychev.pdf).
§ Косинова Д. И. “Использование статистической информации при выявлении схожих документов” (http://download.yandex.ru/IMAT2007/kosinov.pdf).
Студенты факультета под руководством преподавателей факультета выполняют курсовые и дипломные работы по информационному поиску текстов и изображений. В начале 2008 года была защищена кандидатская диссертация по теме “Разработка специального математического и программного обеспечения выявления веб-сообществ в информационно-поисковых системах” аспирантом кафедры информационных систем Баженовым Михаилом. В рамках 1-ой Российской летней школы по информационному поиску RuSSIR2007 (http://romip.ru/russir2007/index.html), проводившейся с 5 по 12 сентября 2007 г. в Екатеринбурге для 60-ти слушателей был прочитан специально подготовленный курс “Анализ гиперссылок в сети Веб: подходы, алгоритмы и приложения” (http://romip.ru/russir2007/slides/haw.zip). В этом году планируется проведение 2-й летней школы (http://romip.ru/russir2008/index.html) с 1 по 5 сентября в Таганроге, в рамках которой уже для 100 студентов старших курсов, аспирантов, молодых ученых, а также разработчиков с опытом создания информационно-поисковых систем будут прочитаны известными специалистами 5 курсов, в т.ч. 3 из них зарубежными специалистами.

 
Александр Сычев кандидат ф-м. н., факультет компьютерных наук ВГУ

Добавить новый комментарий

  • Разрешённые HTML тэги: <img> <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd> <br /> <p>
  • Разбивка строк и параграфов выполняется автоматически.

Подробности об опциях форматирования

CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.
CAPTCHA на основе изображений
Введите символы, которые показаны на картинке.