Словарные информационно-поисковые системы |
||||||||||||||||||
Ранжирование результатов поиска |
Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС словарного типа, с обобщенным англоязычным названием search engines. Основная идея словарной ИПС - создать словарь из слов, встречающихся в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово. Если поиск слов в таком словаре выполняется быстро, то можно отказаться от услуг разработчиков классификаторов и от услуг систематизаторов, оставаясь один на один с авторами документов. К счастью, несмотря на обилие слов (и словоформ) в естественных языках, большинство из них употребляются нечасто, что было замечено ученым лингвистом Ципфом еще в конце 40-х годов нашего века. К тому же наиболее употребительные слова - это союзы, предлоги и артикли, т.е. слова, совершенно бесполезные при поиске информации. В результате словарь самой крупной словарной ИПС Интернет - Alta Vista - имеет объем всего лишь несколько Гбайт. Поскольку слова в словаре упорядочены, поиск нужного слова может выполняться достаточно быстро - без последовательного просмотра. А наличие списков документов, в которых встречается искомое слово, позволяет ИПС выполнять операции с этими списками - их слияние, пересечение или вычитание (для наглядности списки документов изображены в виде овалов): Вместо того, чтобы говорить "Список документов содержащих слово 'стол' или документов, содержащих слово 'стул'", употребляются сокращенные выражения, приведенные на рисунке. Дальнейшее сокращение эти выражения находят в языке запросов словарных ИПС: вместо "Найти список документов содержащих слово 'стол' или документов, содержащих слово 'стул'", большинству словарных ИПС достаточно написать что-то вроде стол ИЛИ стул Союз ИЛИ в запросе к словарной ИПС выступает в роли ЛОГИЧЕСКОГО ОПЕРАТОРА, связывающего множества искомых документов. Словарные ИПС используют три логических оператора: ИЛИ, И и И-НЕ ("но без"); как правило, эти операторы обозначаются одним из следующих способов:
Эти операторы имеют приоритет (прежде всего выполняется И-НЕ, затем - И, и лишь потом - ИЛИ), поэтому для составления сложных запросов могут использоваться скобки (исключение составляет лишь ИПС Infoseek, которая вместо скобок применяет другие обозначения). Как правило, словарные ИПС Интернет предоставляют пользователям два интерфейса - режим "сложного запроса" (advanced search"), в котором доступны все логические операторы, и режим простого поиска, в котором, как правило, невозможно использование скобок, и, следовательно, можно использовать не все сочетания операторов. Давайте рассмотрим гипотетический пример поиска информации о столах. С учетом падежей слова "стол" и наших знаний о логических операторах, запрос к словарной ИПС мог бы выглядеть так: стол ИЛИ стола ИЛИ столу ИЛИ столе ИЛИ столом Хорошо, что это только одно слово, но писать такое уже довольно тоскливо. Западные ИПС, ориентированные на английский язык, предлагают простое решение: вместо слова можно написать его начало, заменив изменяемую часть звездочкой: стол*. Формально говоря, звездочка заменяет любое количество символов, поэтому говорят, что она обозначает правое усечение. Называть словом обозначение "стол*" язык не поворачивается, поэтому для таких частей логических выражений запросов используется название ТЕРМИН. Звездочка для указанной цели (правого усечения) применяется всеми известными словарными ИПС Интернет. Однако такой запрос отыщет и документы со словами "столовая", "столешница", "столоначальник" и даже "столб". Такое явление - искусственная синонимия - может сильно мешать при поиске, однако его проявление зачастую невозможно предусмотреть заранее. Две российские ИПС (Яндекс и Апорт) "знают" русскую грамматику и в словаре хранят только так называемую "нормальную форму" слова (для существительного - именительный падеж единственного числа). Эти системы допускают написание запроса на естественном языке, нормализуя термины запроса, тем самым существенно упрощая поиск в русском Интернет. [Введение]   [Теория
ИПС] |