DS-IID

DS-IID

Модель DS-IID использует глубокий синтез признаков и бинарное глубокое обучение для обнаружения инсайдеров и профилей, сгенерированных ИИ. Она достигла точности 97% и AUC 0.99 на наборе данных CERT.

Новая модель глубокого синтеза для обнаружения внутренних вторжений (DS-IID) против вредоносных инсайдеров и угроз, генерируемых ИИ

Опубликовано: 2 января 2025 г. | Scientific Reports
Авторы: Хазем М. Котб, Тарек Габер, Салем АльДжанах, Хоссам М. Завбаа, Мохаммед Алькатхами и др.


Оглавление


Introduction / Введение

Кибербезопасность остаётся одной из самых критичных задач для современных предприятий. Хотя организации традиционно инвестируют в периметровую защиту — межсетевые экраны и системы обнаружения вторжений (IDS), — возрастающее число инсайдерских угроз сместило фокус на выявление внутренних аномалий. Инсайдерские угрозы — будь то злонамеренные сотрудники, неосторожные пользователи или скомпрометированные учётные записи — составляют значительную долю инцидентов. Дополнительную сложность вносит генеративный искусственный интеллект (ИИ): автоматические системы способны создавать убедительные поддельные профили, имитирующие легитимное поведение.

В этом материале мы рассматриваем новую модель Deep Synthesis-Based Insider Intrusion Detection (DS-IID), которая решает обе задачи: выявляет вредоносных инсайдеров и отличает реальные профили от сгенерированных ИИ. Мы разберём принцип работы, технические детали, примеры кода и результаты испытаний на наборе данных CERT.


Understanding Insider Threats and AI-Generated Dangers / Понимание инсайдерских угроз и опасностей, создаваемых ИИ

Инсайдерские угрозы: постоянный вызов

Источником инсайдерских угроз являются внутренние субъекты — сотрудники, подрядчики или доверенные устройства — обладающие легитимным доступом к ресурсам. Благодаря привилегиям их аномальное поведение часто ускользает от традиционных средств защиты. По последним исследованиям, до 79 % инцидентов связано с инсайдерами.

Влияние генеративного ИИ

Генеративные модели способны создавать реалистичные синтетические данные, маскируя вредоносную активность под «обычную». Классические IDS зачастую не различают настоящие и искусственные события, что приводит к «слепым зонам» безопасности.


The DS-IID Model: Core Concepts and Contributions / Модель DS-IID: ключевые идеи и вклад

Модель DS-IID сочетает глубокий синтез признаков, генеративное моделирование и бинарную классификацию глубоким обучением, преследуя три цели:

  1. Обнаружение вредоносных инсайдеров.
  2. Оценка способности генеративных алгоритмов имитировать реальные профили.
  3. Разграничение реальных и синтетических аномальных профилей.

Deep Feature Synthesis (DFS) для профилирования пользователей

DFS автоматически извлекает подробные профили из сырых журналов и сетевого трафика, что:

  • сокращает ручную работу;
  • ускоряет адаптацию к новым данным;
  • повышает устойчивость последующей классификации.

Интеграция генеративного ИИ и глубокого обучения

Генеративные модели симулируют нормальное поведение, а бинарный классификатор, обученный на реальных и синтетических данных, решает — легитимный ли профиль или вредоносный. Такой дуэт обеспечивает:

  • точность до 97 % (AUC = 0,99);
  • устойчивость к дисбалансу классов.

Addressing Data Imbalance in Cybersecurity / Решение проблемы дисбаланса данных

В кибербезопасности нормальные события доминируют над редкими атаками. DS-IID применяет «on-the-fly» взвешенную случайную выборку, динамически повышая весомость редких вредоносных примеров и снижая риск ложно-положительных и ложно-отрицательных срабатываний.


Technical Architecture and Implementation / Техническая архитектура и реализация

Data Acquisition and Preprocessing / Получение и предобработка данных

Используются открытые наборы, например CERT. Шаги:

  • Нормализация.
  • Очистка.
  • Синхронизация временных меток.

Feature Extraction and Synthesis / Извлечение и синтез признаков

  • Табличное представление логов.
  • Автоматическая генерация признаков (агрегации, шаблоны временных рядов).
  • Отбор по взаимной информации, корреляции и др.

Binary Deep Learning Classification / Бинарная классификация глубоким обучением

  • Архитектура: полносвязные слои, ReLU, Dropout.
  • Функция потерь: binary cross-entropy.
  • Динамическая взвешенная выборка.
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout

# Определяем бинарную модель DS-IID
def build_ds_iid_model(input_dim):
    model = Sequential()
    model.add(Dense(128, activation='relu', input_dim=input_dim))
    model.add(Dropout(0.3))
    model.add(Dense(64, activation='relu'))
    model.add(Dropout(0.3))
    model.add(Dense(32, activation='relu'))
    model.add(Dropout(0.3))
    model.add(Dense(1, activation='sigmoid'))
    
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

if __name__ == "__main__":
    input_dimensions = 30  # Пример числа признаков после DFS
    model = build_ds_iid_model(input_dimensions)
    model.summary()

Real-World Application Examples and Code Samples / Примеры практического применения и код

Bash-скрипт для сканирования журналов

#!/bin/bash
# Путь к журналу (пример: /var/log/auth.log)
LOG_FILE="/var/log/auth.log"

# Шаблон подозрительных записей (много неудачных входов и т. д.)
PATTERN="Failed password|Invalid user"

echo "Сканирование журнала на подозрительную активность..."
grep -E "$PATTERN" "$LOG_FILE" > suspicious_activity.log

echo "Количество найденных записей:"
wc -l suspicious_activity.log

echo "Первые 10 подозрительных строк:"
head -n 10 suspicious_activity.log

Python-скрипт для парсинга и синтеза признаков

import pandas as pd
from datetime import datetime

# Парсим лог-файл в DataFrame
def parse_log_file(log_file_path):
    data = []
    with open(log_file_path, 'r') as f:
        for line in f:
            parts = line.split()
            timestamp_str = " ".join(parts[0:3])
            try:
                timestamp = datetime.strptime(timestamp_str, '%b %d %H:%M:%S')
            except ValueError:
                continue
            data.append({
                'timestamp': timestamp,
                'hostname': parts[3],
                'service': parts[4].split('[')[0],
                'message': " ".join(parts[5:])
            })
    return pd.DataFrame(data)

# Пример синтеза признаков
def generate_features(df):
    feature_df = df.groupby('hostname').size().reset_index(name='suspicious_count')
    df['hour'] = df['timestamp'].dt.hour
    hourly = df.groupby(['hostname', 'hour']).size().unstack(fill_value=0)
    return feature_df.merge(hourly, on='hostname', how='left')

if __name__ == "__main__":
    log_df = parse_log_file('suspicious_activity.log')
    features = generate_features(log_df)
    print("Сгенерированные признаки:")
    print(features.head())
    features.to_csv('user_features.csv', index=False)

Experimental Results and Model Evaluation / Экспериментальные результаты и оценка

  • Точность: 97 %
  • AUC: 0,99
  • Различение реальных и синтетических профилей: > 99 %.

Метрики

Использовались 9 показателей: Kappa, TPR, FPR, FAR, recall, precision, F1, accuracy, AUC. Взвешенная выборка позволила сохранить высокую эффективность при дисбалансе классов.

Сравнение с традиционными методами

В отличие от правил-базированных IDS или кластеризации без учителя, DS-IID объединяет автоматический синтез признаков и учёт синтетических данных, обеспечивая преимущество в точности (54–98 % у конкурентов против 97 % у DS-IID).


Best Practices for Deployment / Практические рекомендации

  1. Интеграция с SIEM для оперативных оповещений.
  2. Регулярное дообучение модели.
  3. Гибридное развёртывание совместно с классическими IDS.
  4. Соблюдение требований конфиденциальности данных.
  5. Мониторинг производительности и обратная связь.
  6. Обучение персонала работе с выводами модели.

Conclusion / Заключение

DS-IID предлагает значительный шаг вперёд в обнаружении инсайдеров, особенно в эпоху генеративного ИИ. Ключевые достоинства:

  • борьба с дисбалансом данных с помощью динамической выборки;
  • автоматический глубокий синтез признаков;
  • подтверждённая точность 97 % и AUC = 0,99 на CERT;
  • практическая применимость (примеры Bash и Python).

Интеграция DS-IID в инфраструктуру кибербезопасности открывает надёжный путь к снижению рисков от внутренних и ИИ-генерированных угроз.


References / Список литературы

  1. CERT Insider Threat Center
  2. Deep Feature Synthesis — Featuretools
  3. TensorFlow
  4. Keras
  5. Scientific Reports
  6. Дисбаланс данных в кибербезопасности
  7. Generative AI in Cybersecurity

Сочетая передовые методы и практические примеры кода, эта инструкция демонстрирует многосторонний подход DS-IID. Будь вы специалист по кибербезопасности или дата-сайентист, модель DS-IID предлагает масштабируемое решение для сложных задач обнаружения инсайдерских угроз. Удачной работы и надёжной безопасности!

🚀 ГОТОВЫ К ПОВЫШЕНИЮ УРОВНЯ?

Поднимите свою карьеру в кибербезопасности на новый уровень

Если вы нашли этот контент ценным, представьте, чего вы могли бы достичь с нашей комплексной 47-недельной элитной обучающей программой. Присоединяйтесь к более чем 1200 студентам, которые изменили свою карьеру с помощью техник Подразделения 8200.

97% Трудоустройство
Элитные техники Подразделения 8200
42 Практические лаборатории