×

Вы используете устаревший браузер Internet Explorer. Некоторые функции сайта им не поддерживаются.

Рекомендуем установить один из следующих браузеров: Firefox, Opera или Chrome.

Контактная информация

+7-863-218-40-00 доб.200-80
ivdon3@bk.ru

  • Разработка веб-сервиса для поиска файлов по ключевым словам

    • Аннотация
    • pdf

    Предмет исследований – разработка сервиса для поиска по файлам пользователя по заданному набору ключевых слов с параметрами. Были изучены имеющиеся подходы к решению такой задачи и выбран наиболее релевантный. Сервис осуществляет поиск внутри файлов с текстовым содержимым с целью автоматизации процесса выделения нужных файлов среди всего множества. В основе его работы лежит алгоритм Портера и используется подход стемминга текста с целью получения более точных результатов. Выполняется поиск основы слова, учитывающий морфологию. Выполняя морфологический разбор слова, находится общая для всех его грамматических форм основа, отсекая суффиксы и окончания. В результате алгоритм работы сервиса позволяет искать не просто по заданным ключевым словам, но и учитывает их словоформы, а также ищет сразу по нескольким наборам ключевых слов, каждый набор анализируется отдельно. Помимо этого можно задавать диапазоны числовых значений для поиска. Особенность сервиса в том, что наборы ключевых слов ищутся совместно в ближних абзацах в интервале окрестности от -20 до +20 слов друг от друга, учитывая таким образом контекст их появления в тексте. Сервис ранжирует найденные документы по качеству соответствия критериям поиска. Обрабатываются файлы в основных форматах: doc, xls, pdf, txt. Сервис функционирует на платформе Linux под управлением веб-сервера Apache. Для разработки использованы бесплатные программные инструменты.

    Ключевые слова: поисковая система, анализ документов, стемминг, алгоритм Портера, словоформы, морфология, среднее-арифметическое процентов, веб-сервис

    05.13.06 - Автоматизация и управление технологическими процессами и производствами (по отраслям) , 05.13.18 - Математическое моделирование, численные методы и комплексы программ