Инженерный вестник Дона

Реализация алгоритма LSH средствами Pl/PgSQL
- Плотникова Н.П.
- Кевбрин В.А.
- Аннотация
- pdf
Нашу жизнь пронизывают данные, бесконечные потоки информации проходят через компьютерные системы. Сегодня нельзя представить современное программное обеспечение без взаимодействия с базами данных. Существует много различных СУБД в зависимости от цели использования информации. В статье рассматривается алгоритм Locality-sensitive hashing (LSH) на основе языка Pl/PgSQL, который позволяет искать похожие документы в базе.

Ключевые слова: LSH, хэширование, поле, строка, текстовые данные, запрос, программное обеспечение, SQL

2.3.1 - Системный анализ, управление и обработка информации
Оптимизация процесса дедупликации на основе баз данных
- Плотникова Н.П.
- Кевбрин В.А.
- Аннотация
- pdf
Нельзя представить настоящее время без программного обеспечения. Огромные потоки информации проходят через компьютерные вычислительные системы. Совершенно невозможно обработать неструктурированные бесконечно поступающие данные, поэтому необходимо выделять конкретные задачи и подготавливать информацию к обработке. Одним из подобных действий является дедупликация. В данной статье рассматриваются возможные оптимизации метода удаления дубликатов с использованием баз данных.

Ключевые слова: дедупликация, база данных, поле, строка, текстовые данные, запрос, программное обеспечение, неструктурированные данные

2.3.1 - Системный анализ, управление и обработка информации
Дедупликация больших объемов данных при помощи баз данных
- Аннотация
- pdf
На сегодняшний день огромное количество разнородной информации проходит через электронные вычислительные системы. Возникает критическая необходимость в анализе нескончаемого потока данных ограниченными средствами, а это в свою очередь требует структурирования информации. Одним из этапов решения задачи упорядочивания данных является дедупликация. В данной статье рассматривается метод удаления дубликатов с использованием баз данных, анализируются результаты тестирования работы с различными типами систем управления баз данных с разными наборами параметров.

Ключевые слова: дедупликация, база данных, поле, строка, текстовые данные, искусственная нейронная сеть, множества, запрос, программное обеспечение, неструктурированные данные

2.3.1 - Системный анализ, управление и обработка информации

01.10.2024

Конференция «Наука и высшая школа перед вызовами современности: стратегии и перспективы развития»

Научно-практическая конференция с международным участием «Наука и высшая школа перед вызовами современности: стратегии и перспективы развития» пройдет 29 Ноября 2024 г. в Москве. Подробнее:...

Подробнее...

01.10.2024

Международная научно-практическая конференция по передовым исследованиям

Международная научно-практическая конференция по передовым исследованиям в инженерии и прикладным технологиям состоится 19 Ноября - 20 Ноября 2024 г. в Самарканде (Узбекистан). Подробнее:...

Подробнее...

01.10.2024

Конференция с международным участием «Образование – наука – производство»

Всероссийская научно-практическая конференция с международным участием «Образование – наука – производство» пройдет 15 Ноября 2024 г. в Чите. Подробнее:...

Подробнее...

01.10.2024

Всероссийская конференция «Пространственное развитие регионов в контексте социально-экономического суверенитета России»

Всероссийская научно-практическая конференция «Пространственное развитие регионов в контексте социально-экономического суверенитета России» пройдет 22 Ноября 2024 г. в Нижневартовске. Подробнее:...

Подробнее...

01.10.2024

X Всероссийская конференция «Инженерные технологии: традиции, инновации, векторы развития»

X Всероссийская научно-практическая конференция с международным участием «Инженерные технологии: традиции, инновации, векторы развития» пройдет 13 Ноября - 15 Ноября 2024 г. в Абакане. Подробнее:...

Подробнее...

01.10.2024

Всероссийская научно-практическая конференция с международным участием «Образование – наука – производство»

Всероссийская научно-практическая конференция с международным участием «Образование – наука – производство» состоится 15 Ноября 2024 г. в Чите....

Подробнее...

Реализация алгоритма LSH средствами Pl/PgSQL

Оптимизация процесса дедупликации на основе баз данных

Дедупликация больших объемов данных при помощи баз данных

Новости

Архив новостей