Теория информационно-поисковых систем

 

[index.htm] Введение

[to.htm] Теория ИПС

[kl.htm] Классификационные ИПС

[cl.htm] Словарные ИПС

[ko.htm] Web-кольца - предметная ИПС

[ctr.htm] Стратегия поиска

[clova.htm ] Слова далекие и близкие

[r.htm] Ранжирование результатов поиска

[at.htm] Английский тезаурус Alta Vista

[posk.htm ] ИПС Всемирной Паутины

 

Итак, АВТОР создает ДОКУМЕНТ. А у нас (у вас) возникает ИНФОРМАЦИОННАЯ ПОТРЕБНОСТЬ: Схема работы ИПС

Эта информационная потребность часто (как правило) даже не может быть точно выражена словами, и выражается только в оценке просматриваемых документов - подходит или не подходит. В теории информационного поиска вместо слова "подходит" используют термин "ПЕРТИНЕНТНЫЙ ДОКУМЕНТ", а вместо "не подходит" - "не пертинентный". Слово "пертинентный" происходит от английского "pertinent", что значит "относящийся к делу, подходящий по сути". Субъективно понимаемая цель информационного поиска - найти все пертинентные и только пертинентные документы (мы хотим найти "только то, что хотим, и ничего больше").

Эта цель - недостижима. Мы часто в состоянии оценить пертинентность документа только в сравнении с другими документами (конечно, если цель нашего поиска - редактор для Quake, а попался документ с кулинарным рецептом, то он явно непертинентен, но принять решение о пертинентности документа так просто удается далеко не всегда). Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются - "ШУМ". Слишком большой шум затрудняет выделение пертинентных документов, слишком малый - не дает уверенности в том, что найдено достаточное количество пертинентных документов (раз мы видим только пертинентные документы, нет никакой уверенности в том, что и среди тех документов, которые не попались нам на глаза, тоже не окажутся пертинентные). Практика показывает, что когда количество непертинентных документов лежит в интервале от 10% до 30%, ищущий чувствует себя комфортно, не теряясь в море шума и считая, что количество найденных документов - удовлетворительно.

Когда документов много, используется информационно-поисковая система (ИПС). В этом случае информационная потребность должна быть выражена средствами, которые "понимает" ИПС - должен быть сформулирован ЗАПРОС: Послание запроса

Запрос редко может точно выразить информационную потребность. Однако многие ИПС по разным причинам не могут определить, соответствует ли тот или иной документ запросу. Степень соответствия документа запросу называется РЕЛЕВАНТНОСТЬЮ. Релевантный документ может оказаться непертинентным и наоборот. Известна (американская) ИПС, которая на запрос, состоящий из единственного слова "Russia" (Россия), выдает список документов, в первом из которых этого слова нет вообще, но зато есть слово "Gagarin". Этот документ нерелевантен, но пертинентен для массовой американской аудитории. В случае, когда ищется информация о шлюпочных якорях (кошках), запрос, состоящий из слова "кошка", почти в любой ИПС даст массу релевантных, но непертинентных документов.

[Введение]   [Теория ИПС]
[Классификационные ИПС]   [Словарные ИПС]
[Web-кольца - предметная ИПС]
[Стратегия поиска]   [Слова далекие и близкие]
[Ранжирование результатов поиска]
[Английский тезаурус Alta Vista]
[ИПС Всемирной Паутины]