ivdon3@bk.ru
В статье показано, что подготовка данных для использования в дальнейшем в алгоритмах играет важную роль и этому стоит уделить внимание. Рассмотрены задачи обработки исходных данных: выборка данных, очистка данных, генерация признаков, интеграция, форматирование. Исследование данных состоит в изучении следующих шагов: обобщение данных, группировка данных, исследование отношений между разными атрибутами. Приведен алгоритм действий подготовки данных в рамках событий журнала информационной безопасности для дальнейшей кластеризации.
Ключевые слова: данные, кластеризация данных, события, журнал информационной безопасности, алгоритм, Data Mining, Data Preparation, dataset, Machine Learning
05.13.01 - Системный анализ, управление и обработка информации (по отраслям)
В статье приводится описание особенностей организации современных систем синтаксических парсеров и проблем, возникающих при анализе текста. В результате проведенного сравнительного анализа авторами предложен единый подход к обработке неструктурированных текстов на русском и английском языках, в рамках которого объединены в едином комплексе морфология и синтаксис. Разработанная система синтаксического анализа, используя словарь валентности глаголов, шаблоны минимальных структурных схем предложения, а также шаблоны союзов, позволяет выделять предикатные структуры предложений текста, осуществлять первичный семантический анализ за счет учета семантического содержания актантов предиката и строить деревья синтаксического подчинения предложений. Получаемые при этом деревья хранят элементы дерева составляющих и дерева зависимостей. Предложенная организация шаблонов и правил для их выделения позволяет решать некоторые проблемы современных парсеров, а использование словаря валентности глаголов - уменьшить количество вариантов синтаксического разбора предложения.
Ключевые слова: автоматическая обработка текста, синтаксический парсер, морфологический анализ, структурные элементы текстапроизводственно-технические цели обеспечения гибкости производства
05.13.01 - Системный анализ, управление и обработка информации (по отраслям)
В статье демонстрируется контекстуальное использование субстандартных единиц, отражающих своеобразие языковой культурной действительности определенного исторического периода; затрагивается проблема авторской деликатности в отношении употребления инвективных слов. Отмечается, что ироничное использование сниженной лексики – это игровой словесный приём, подчёркивающий особенности современных реалий.
Ключевые слова: субстандартные единицы, жаргонизмы, сленгизмы, диалектизмы, просторечные слова