Инвертированный файл

Эти списки хранятся и обрабатываются женевским филиалом Европейского патентного ведомства, который подготавливает "инвертированный файл". В этом файле каждому документу, хранящемуся в нумерационном порядке, соответствует(ют) индекс(ы) МПК.  [c.337]


МОДЕЛЬ ИНВЕРТИРОВАННЫХ ФАЙЛОВ И ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ  [c.126]

Модель инвертированных файлов можно рассматривать как частный случай сетевой двухуровневой модели данных. Произведенные упрощения двухуровневой сети позволили создать еще более понятную прикладным программистам и пользователям модель данных.  [c.126]

Основными информационными конструкциями в модели инвертированных файлов являются основной файл, который соответствует ранее введенному понятию "отношения", "инвертированный файл" и "список связи".  [c.126]

В основном файле Fi разрешается выделить один или несколько атрибутов, по значениям которых затем будут формироваться инвертированные файлы и списки связи. С точки зрения ранее рассмотренной реляционной модели данных выделяемый атрибут может быть как первичным, так и вторичным ключом в основном файле Fi.  [c.127]

Определенная таким образом последовательность значений атрибута А и номеров записей основного файла Fi является инвертированным файлом, который далее будем обозначать через A(Fi).  [c.127]


Аналогия с двухуровневой сетью заключается в следующем. Связь инвертированного файла A(Fi) и файла Fi соответствует типу "основной-зависимый". Отличия сводятся к тому, что  [c.127]

Преимущества модели инвертированных файлов особенно проявляются при реализации выборки с большим количеством условий. Каждое условие выборки соответствует множеству номеров записей, и комбинация условий выборки означает манипулирование ранее полученными из инвертированных файлов множествами номеров записей.  [c.129]

В информационно-поисковых системах ключевые атрибуты соответствуют ключевым словам, определяющим тематику документа. Количество ключевых слов для документа может быть любым. Связь основного и инвертированного файла в этом случае выглядит иначе и показана на рис. 2.8.  [c.129]

Пусть дан запрос найти все документы, содержащие ключевые слова А и С. Система обратится к инвертированному файлу и найдет группы ключей А и С. Совпадающие значения номеров укажут в нашем примере на искомую запись с номером 140.  [c.129]

Рис. 2.8. Связь основного и инвертированного файла Рис. 2.8. Связь основного и инвертированного файла
Следует отметить, что поиск по инвертированному файлу обнаруживает только номера записей и плохо приспособлен для указания всех ключей, связанных с найденной записью. Между тем эта информация часто запрашивается. В одном из наших примеров запись с адресом 140 была найдена по значениям ключей А и С очень быстро, но определить, есть ли в этой записи третий ключ Е, используя только инвертированный файл, очень трудно.  [c.130]

Модель инвертированных файлов служит основой для ряда современных информационно-поисковых систем. Одна база данных создается обычно для одного класса документов, которые объединены общей тематикой, например справочная информация о предприятиях и организациях, сведения о производимой продукции, информация о происходящих выставках.  [c.130]

Из всего многообразия реализаций информационно-поисковых языков модели инвертированных файлов соответствуют дескрипторные языки.  [c.131]


Административная подсистема предназначена для организации новых баз данных, определения структуры вводимых в них записей, ввода подготовленных документов в базы данных в соответствии с определенными структурами, а также для создания главного инвертированного файла - основного средства ускорения поиска требуемой информации в ИПС с помощью ключевых слов.  [c.131]

Рассмотрим пример базы данных ИПС с инвертированным файлом для поиска сведений об экспонатах выставок. Документы, хранящиеся в базе данных, представляют собой описания выставочных экспонатов. Среди атрибутов документа источниками дескрипторов могут быть следующие Название экспоната, Описание экспоната, Ключевые слова, Разработчик экспоната.  [c.132]

Атрибуты Название экспоната, Описание экспоната, Разработчик экспоната являются текстовыми величинами, содержащими произвольное количество строк и слов. Наиболее информативными с точки зрения выделения дескрипторов являются Название экспоната и Разработчик экспоната. При автоматическом получении множества дескрипторов слова, содержащиеся в атрибуте Описание экспоната, содержат слишком много слов из общей лексики языка, и наличие их в инвертированном файле терминов создаст файл слишком большого размера, в котором значительная доля слов не характеризует выставочные экспонаты и является информационным шумом. Надо отметить, что содержимое главного инвертированного файла предоставляется пользователю при работе с информационно-поисковой системой на экране дисплея, чтобы выбрать конкретные значения дескрипторов для команд выборки. С этой точки зрения администратор информационно-поисковой системы должен отбирать для автоматического индексирования те атрибуты, в которых содержится мало слов, составляющих информационный шум, а Описание экспоната этим требованиям не удовлетворяет.  [c.132]

Процесс создания базы данных информационно-поисковой системы завершается формированием главного инвертированного файла, в котором для каждого значения дескриптора, полученного при автоматическом индексировании, указываются номера записей, среди значений атрибутов которых есть слова или словосочетания, совпадающие с этим дескриптором. Списки связи в этом случае не требуются, поскольку отдельные базы данных представляют собой тематически различные множества документов и не имеют общих дескрипторов. Кроме того, возможно формирование дополнительных инвертированных файлов по значениям тех атрибутов, которые не подключались к процессу автоматического индексирования.  [c.133]

Команда поиска Найти может использовать в качестве условий выборки значения из главного инвертированного файла, а также из дополнительных инвертированных файлов. Кроме того, пользователь может набрать условие выборки на клавиатуре.  [c.133]

Поиск записей, содержащих слово подшипник. При поиске используется главный инвертированный файл.  [c.133]

Теперь найденные записи (документы) доступны для просмотра, они полностью или частично могут быть напечатаны, перенесены во внешнюю память компьютера. С найденным множеством записей могут производиться и другие операции по формированию производной информации. Следует отметить, что слово подшипник в этом примере найдено с помощью главного инвертированного файла во всех атрибутах 27 записей, подключенных к процессу автоматического индексирования (в нашем примере - это атрибуты Название экспоната, Ключевые слова, Разработчик экспоната).  [c.134]

Документальный поиск сводится к просмотру соответствующих записей файла инвертированного матричного индекса. Таким образом, отпадает необходимость в последовательном просмотре всего информационного массива и значительно сокращается время поиска.  [c.519]

При инвертировании всех значащих слов текста документов файлы инвертированных матричных индексов могут достигать гигантских размеров. Часто для них требуется более 50% дискового пространства, необходимого для хранения самих документов. Однако увеличение инвертированного матричного индекса в размерах замедляется с ростом числа документов, так как с каждым новым документом вероятность того, что встречающиеся в нем значимые слова уже включены в индекс, увеличивается. В этом случае, в матрицу добавляются лишь указатели на новые документы.  [c.519]

Поиск по атрибутному индексу выполняется быстрее, чем по инвертированному матричному индексу, но имеет значительно меньше поисковых возможностей. Однако атрибутный индекс позволяет находить информацию, не являющуюся составной частью текста документа. Кроме того, файлы атрибутных индексов значительно меньше по размеру файлов инвертированных матричных индексов с полным текстом, поскольку в этом случае с каждым документом связано гораздо меньше хранимой информации.  [c.521]

База данных содержит основные файлы Сотрудники и Зарплата, показанные на рис. 2.7. Естественно, что списки связи установлены по атрибуту Фамилия, а инвертированных списков в нашем примере максимально может быть пять (по числу атрибутов в основных файлах).  [c.128]

В дополнение к прямой и инвертированной схемам в ИПС используется атрибутный индекс. Он позволяет хранить данные о документе, не содержащиеся непосредственно в его тексте, например, имя автора, дату создания, наименование темы и другие фактические данные. Данные могут автоматически извлекаться из документа либо вноситься вручную при вводе документа в систему. Структура атрибутного индекса соответствует стандарту представления структурированной информации, т. е. это таблица с заранее заданными полями. На рис. 20.3 представлен пример организации поискового файла — атрибутного индекса, в котором все документы характеризуются одним и тем же набором реквизитов-полей автор документа, виддокумента и его номер, дата издания, название. Поиск по атрибутному индексу осуществляется средствами обработки запросов СУБД — выдаются только те документы, значения атрибутов которых удовлетворяют условиям запроса.  [c.520]

Смотреть страницы где упоминается термин Инвертированный файл

: [c.128]    [c.129]    [c.236]    [c.194]   
Теория экономических информационных систем Изд.4 (2000) -- [ c.127 ]