ivdon3@bk.ru
Растущая популярность больших языковых моделей в различных сферах научной и индустриальной деятельности приводит к появлению решений, применяющих эти технологий для совершенно разных задач. В данной статье предлагается использовать языковые модели BERT, GPT и GPT-2 для обнаружения вредоносного программного кода. Предварительно обученная на естественных текстах нейросетевая модель дообучается на предобработанном датасете, содержащим программные файлы с вредоносным и безвредным кодом. Предобработка датасета заключается в том, что программные файлы в виде машинных инструкций транслируется в текстовое описание на формализованном языке. Дообученная таким образом модель используется для задачи классификации программного обеспечения на основе признака содержания в нем вредоносного кода. В статье приводится информация о проведенном эксперименте по использованию предложенной модели. Оценивается качество применения такого подхода в сравнении с существующими антивирусными технологиями. Предлагаются также пути улучшения характеристик модели.
Ключевые слова: антивирус, нейросеть, языковые модели, вредоносный код, машинное обучение, дообучение моделей, тонкая настройка, BERT, GPT, GPT-2
2.3.1 - Системный анализ, управление и обработка информации , 2.3.6 - Методы и системы защиты информации, информационная безопасность