# Ein neuartiges Deep-Synthesis-basiertes Insider-Intrusion-Detection-Modell (DS-IID) für böswillige Insider und KI-generierte Bedrohungen

*Veröffentlicht: 2. Januar 2025 | Scientific Reports*  
*Autoren: Hazem M. Kotb, Tarek Gaber, Salem AlJanah, Hossam M. Zawbaa, Mohammed Alkhathami u. a.*

---

## Inhaltsverzeichnis

- [Einleitung](#einleitung)
- [Insider-Bedrohungen und KI-generierte Gefahren verstehen](#insider-bedrohungen-und-ki-generierte-gefahren-verstehen)
- [Das DS-IID-Modell: Grundlagen und Beiträge](#das-ds-iid-modell-grundlagen-und-beiträge)
  - [Deep Feature Synthesis (DFS) zur Benutzerprofilierung](#deep-feature-synthesis-dfs-zur-benutzerprofilierung)
  - [Integration von generativer KI und Deep Learning](#integration-von-generativer-ki-und-deep-learning)
- [Umgang mit Datenungleichgewicht in der IT-Sicherheit](#umgang-mit-datenungleichgewicht-in-der-it-sicherheit)
- [Technische Architektur und Implementierung](#technische-architektur-und-implementierung)
  - [Datenerfassung und Vorverarbeitung](#datenerfassung-und-vorverarbeitung)
  - [Feature-Extraktion und ‑Synthese](#feature-extraktion-und-synthese)
  - [Binäre Deep-Learning-Klassifikation](#binäre-deep-learning-klassifikation)
- [Praxisbeispiele und Code-Samples](#praxisbeispiele-und-code-samples)
  - [Bash-basiertes Log-Scanning](#bash-basiertes-log-scanning)
  - [Python-Skript für Parsing und Deep Feature Synthesis](#python-skript-für-parsing-und-deep-feature-synthesis)
- [Experimentelle Ergebnisse und Evaluation](#experimentelle-ergebnisse-und-evaluation)
- [Best Practices für den Einsatz in Produktivsystemen](#best-practices-für-den-einsatz-in-produktivsystemen)
- [Fazit](#fazit)
- [Literatur](#literatur)

---

## Einleitung

Cybersecurity bleibt eine der größten Herausforderungen für moderne Unternehmen. Während Organisationen traditionell in Perimeter-Sicherheitsmaßnahmen wie Firewalls und Intrusion-Detection-Systeme (IDS) investierten, hat die zunehmende Häufigkeit von Insider-Bedrohungen den Fokus auf die Erkennung interner Anomalien verlagert. Insider-Bedrohungen – egal ob durch böswillige Insider, fahrlässige Mitarbeitende oder kompromittierte Nutzer – machen einen erheblichen Anteil der Sicherheitsvorfälle aus.  

Darüber hinaus erschweren generative Verfahren der Künstlichen Intelligenz (KI) die Lage zusätzlich: Automatisierte Systeme können hochgradig überzeugende Fake-Profile erzeugen, die legitimes Verhalten nachahmen.  

In diesem Beitrag stellen wir ein neuartiges Deep-Synthesis-basiertes Insider-Intrusion-Detection-Modell (DS-IID) vor, das diese Herausforderungen direkt adressiert. Das Modell erkennt nicht nur böswillige Insider mittels Deep Learning, sondern unterscheidet auch zwischen echten und KI-generierten (synthetischen) Benutzerprofilen. Wir erläutern die zugrundeliegenden Prinzipien, geben technische Details, zeigen Code-Beispiele für reale Szenarien und diskutieren die Performance basierend auf dem CERT-Insider-Threat-Datensatz.

---

## Insider-Bedrohungen und KI-generierte Gefahren verstehen

### Insider-Bedrohungen: eine hartnäckige Herausforderung

Insider-Bedrohungen gehen von internen Akteuren – Mitarbeitenden, Dienstleistern oder vertrauenswürdigen Geräten – aus, die legitimen Zugriff besitzen. Durch ihre erhöhten Rechte können sie traditionelle Sicherheitskontrollen umgehen, was ihre Entdeckung erschwert. Aktuellen Studien zufolge lassen sich bis zu 79 % der Sicherheitsvorfälle auf Insider zurückführen.

### Die Rolle generativer KI bei der Insider-Erkennung

Mit dem Aufkommen generativer KI hat sich die Lage weiter verkompliziert. Solche Systeme können realistisch wirkende, synthetische Daten erzeugen, die legitime Nutzeraktivitäten imitieren. Angreifer verschleiern ihre Absichten hinter dieser Fassade und traditionelle IDS-Systeme haben Schwierigkeiten, echte von synthetischen Aktivitäten zu unterscheiden.

---

## Das DS-IID-Modell: Grundlagen und Beiträge

Das DS-IID-Modell kombiniert Deep Feature Synthesis, generative Modellierung und binäres Deep Learning. Damit verfolgt es drei Hauptziele:

1. **Erkennung böswilliger Insider mittels überwachten Lernens.**  
2. **Bewertung, wie gut generative Algorithmen echte Nutzerprofile imitieren können.**  
3. **Unterscheidung zwischen realen und synthetischen Anomalien, sodass KI-generierte Bedrohungen korrekt markiert werden.**

### Deep Feature Synthesis (DFS) zur Benutzerprofilierung

DFS bildet das Herzstück des DS-IID-Modells. Im Unterschied zu manueller Feature-Entwicklung ermöglicht DFS die automatisierte Extraktion detaillierter Nutzerprofile aus Rohdaten. Vorteile:

- Geringerer manueller Aufwand und weniger Fehlerquellen.  
- Schnelle Anpassung an neue Datentypen und Bedrohungsformen.  
- Robustere Grundlage für nachgelagerte Klassifikationsaufgaben.

### Integration von generativer KI und Deep Learning

Generative Modelle simulieren reale Nutzerprofile, um die Wahrscheinlichkeit zu prüfen, dass ein verdächtiges Profil KI-erzeugt ist. Gleichzeitig klassifiziert ein binäres Deep-Learning-Modell – trainiert auf echten und synthetischen Daten – ein Profil als legitim oder böswillig. Diese Dualität ermöglicht:

- Erkennungsgenauigkeit von bis zu 97 % und eine AUC von 0,99 (CERT-Datensatz).  
- Effektiven Umgang mit Datenungleichgewicht, wodurch sowohl False Positives als auch False Negatives reduziert werden.

---

## Umgang mit Datenungleichgewicht in der IT-Sicherheit

In Security-Daten überwiegt meist die Menge harmloser Ereignisse. DS-IID nutzt deshalb **On-the-Fly Weighted Random Sampling**: Während des Trainings werden die Klassengewichte dynamisch angepasst, sodass seltene, bösartige Ereignisse angemessen berücksichtigt werden. Dadurch steigt die Zuverlässigkeit der Erkennung ohne die Gesamtleistung zu beeinträchtigen.

---

## Technische Architektur und Implementierung

DS-IID basiert auf einer mehrschichtigen Architektur für Datenverarbeitung, Feature-Synthese und Klassifikation.

### Datenerfassung und Vorverarbeitung

Verwendet werden u. a. öffentliche Datensätze wie CERT. Schritte:

- **Normalisierung:** Vereinheitlichung der Datenformate.  
- **Datenbereinigung:** Entfernen irrelevanter oder verrauschter Einträge.  
- **Zeitstempel-Abgleich:** Chronologische Konsistenz für Sequenzmodelle.

### Feature-Extraktion und ‑Synthese

Nach der Vorverarbeitung erfolgt DFS:

- **Tabellarische Transformation** der Rohlogs.  
- **Automatisierte Feature-Generierung** (Aggregationen, Zeitreihenmuster).  
- **Feature-Auswahl** mittels statistischer Kriterien (z. B. Mutual Information, Pearson-Korrelation).

### Binäre Deep-Learning-Klassifikation

Der finale Schritt ist die Klassifikation:

- **Modellarchitektur:** Mehrere Fully-Connected-Layer mit ReLU und Dropout.  
- **Loss-Funktion:** Binäre Cross-Entropy.  
- **On-the-Fly Weighted Sampling:** Dynamische Gewichtung während des Trainings.

```python
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout

# Definition des binären DS-IID-Klassifikationsmodells
def build_ds_iid_model(input_dim):
    model = Sequential()
    model.add(Dense(128, activation='relu', input_dim=input_dim))
    model.add(Dropout(0.3))
    model.add(Dense(64, activation='relu'))
    model.add(Dropout(0.3))
    model.add(Dense(32, activation='relu'))
    model.add(Dropout(0.3))
    model.add(Dense(1, activation='sigmoid'))
    
    model.compile(optimizer='adam',
                  loss='binary_crossentropy',
                  metrics=['accuracy'])
    return model

# Beispielhafte Nutzung
if __name__ == "__main__":
    input_dimensions = 30  # Beispiel: Feature-Anzahl nach DFS
    model = build_ds_iid_model(input_dimensions)
    model.summary()

Praxisbeispiele und Code-Samples

Bash-basiertes Log-Scanning

Das folgende Bash-Skript zeigt, wie System-Logs auf verdächtige Login-Versuche untersucht werden können.

#!/bin/bash
# Pfad zur Logdatei (Beispiel: /var/log/auth.log)
LOG_FILE="/var/log/auth.log"

# Suchmuster für verdächtige Einträge (z. B. wiederholte Fehlversuche)
PATTERN="Failed password|Invalid user"

echo "Durchsuche Logs nach verdächtigen Aktivitäten..."
grep -E "$PATTERN" "$LOG_FILE" > suspicious_activity.log

echo "Anzahl verdächtiger Einträge:"
wc -l suspicious_activity.log

echo "Erste 10 verdächtige Zeilen:"
head -n 10 suspicious_activity.log

Python-Skript für Parsing und Deep Feature Synthesis

import pandas as pd
from datetime import datetime

# Logdatei einlesen und in DataFrame umwandeln
def parse_log_file(log_file_path):
    data = []
    with open(log_file_path, 'r') as f:
        for line in f:
            # Beispielzeile: "Jan 01 12:34:56 hostname sshd[1234]: Failed password for invalid user"
            parts = line.split()
            timestamp_str = " ".join(parts[0:3])
            try:
                timestamp = datetime.strptime(timestamp_str, '%b %d %H:%M:%S')
            except ValueError:
                continue
            data.append({
                'timestamp': timestamp,
                'hostname': parts[3],
                'service': parts[4].split('[')[0],
                'message': " ".join(parts[5:])
            })
    return pd.DataFrame(data)

# Beispielhafte Feature-Synthese nach Hostname
def generate_features(df):
    feature_df = df.groupby('hostname').size().reset_index(name='suspicious_count')
    df['hour'] = df['timestamp'].dt.hour
    hourly_features = df.groupby(['hostname', 'hour']).size().unstack(fill_value=0)
    feature_df = feature_df.merge(hourly_features, on='hostname', how='left')
    return feature_df

if __name__ == "__main__":
    log_df = parse_log_file('suspicious_activity.log')
    features = generate_features(log_df)
    print("Generierte Features:")
    print(features.head())

    # Export für das Training des DS-IID-Modells
    features.to_csv('user_features.csv', index=False)

Dieses Skript zeigt:

Log-Parsing in ein strukturiertes DataFrame,
Feature-Generierung mittels Aggregationen und Zeitmerkmalen,
Export der Feature-Matrix für das Training.

Experimentelle Ergebnisse und Evaluation

Mit dem CERT-Datensatz erzielte DS-IID:

Genauigkeit: 97 %
AUC: 0,99
Echte vs. KI-Profile: > 99 % Unterscheidungsgenauigkeit.

Bewertungsmetriken

Neun Metriken wurden herangezogen, u. a.:

Cohen’s Kappa
True Positive Rate (TPR)
False Positive Rate (FPR)
False Alarm Rate (FAR)
Recall, Precision, F1-Score
Accuracy, AUC

Durch dynamisches Sampling behielt DS-IID auch bei unbalancierten Daten hohe Leistung.

Vergleich mit traditionellen Methoden

Klassische IDS setzen oft auf manuelle Regeln oder unüberwachtes Clustering. DS-IID vereint automatisierte Feature-Synthese mit Deep Learning und übertrifft so frühere Ansätze (54 – 98 % Genauigkeit) deutlich.

Best Practices für den Einsatz in Produktivsystemen

Integration in SIEM-Lösungen für Echtzeit-Alerts.
Regelmäßiges Retraining mit aktuellen Daten und synthetischen Profilen.
Hybrider Ansatz: DS-IID und herkömmliche IDS kombinieren.
Datenschutzkonformität bei Log- und Nutzerdaten.
Performance-Monitoring und Feedback-Schleifen.
Schulung des Security-Teams zur Interpretation der Model-Outputs.

Fazit

DS-IID stellt einen bedeutenden Fortschritt in der Insider-Erkennung dar, insbesondere angesichts KI-generierter Täuschungen.

Wesentliche Punkte:

On-the-Fly-Sampling gleicht Datenungleichgewichte aus.
Automatisierte DFS reduziert manuellen Aufwand.
97 % Genauigkeit / 0,99 AUC auf dem CERT-Datensatz.
Praxisnahe Skripte demonstrieren die Einbindung in Log-Analysen.

Durch die Kombination von Deep Synthesis und KI-gestützter Detektion erweitert DS-IID klassische IDS-Funktionen und schafft neue Möglichkeiten zur Abwehr automatisierter, KI-basierter Bedrohungen.

Literatur

Durch die Verbindung modernster Methoden mit praxisnahen Code-Beispielen zeigt dieser Leitfaden, wie DS-IID eine skalierbare und robuste Lösung zur Insider-Bedrohungserkennung bereitstellt. Viel Erfolg beim Implementieren – und bleiben Sie sicher!

Untitled Post