8200 Cyber Bootcamp

© 2025 8200 Cyber Bootcamp

Blog post cover

Untitled Post

# Ein neuartiges Deep-Synthesis-basiertes Insider-Intrusion-Detection-Modell (DS-IID) fĂŒr böswillige Insider und KI-generierte Bedrohungen

*Veröffentlicht: 2. Januar 2025 | Scientific Reports*  
*Autoren: Hazem M. Kotb, Tarek Gaber, Salem AlJanah, Hossam M. Zawbaa, Mohammed Alkhathami u. a.*

---

## Inhaltsverzeichnis

- [Einleitung](#einleitung)
- [Insider-Bedrohungen und KI-generierte Gefahren verstehen](#insider-bedrohungen-und-ki-generierte-gefahren-verstehen)
- [Das DS-IID-Modell: Grundlagen und BeitrÀge](#das-ds-iid-modell-grundlagen-und-beitrÀge)
  - [Deep Feature Synthesis (DFS) zur Benutzerprofilierung](#deep-feature-synthesis-dfs-zur-benutzerprofilierung)
  - [Integration von generativer KI und Deep Learning](#integration-von-generativer-ki-und-deep-learning)
- [Umgang mit Daten­ungleich­gewicht in der IT-Sicherheit](#umgang-mit-datenungleichgewicht-in-der-it-sicherheit)
- [Technische Architektur und Implementierung](#technische-architektur-und-implementierung)
  - [Daten­erfassung und Vorverarbeitung](#datenerfassung-und-vorverarbeitung)
  - [Feature-Extraktion und ‑Synthese](#feature-extraktion-und-synthese)
  - [BinÀre Deep-Learning-Klassifikation](#binÀre-deep-learning-klassifikation)
- [Praxisbeispiele und Code-Samples](#praxisbeispiele-und-code-samples)
  - [Bash-basiertes Log-Scanning](#bash-basiertes-log-scanning)
  - [Python-Skript fĂŒr Parsing und Deep Feature Synthesis](#python-skript-fĂŒr-parsing-und-deep-feature-synthesis)
- [Experimentelle Ergebnisse und Evaluation](#experimentelle-ergebnisse-und-evaluation)
- [Best Practices fĂŒr den Einsatz in Produktivsystemen](#best-practices-fĂŒr-den-einsatz-in-produktivsystemen)
- [Fazit](#fazit)
- [Literatur](#literatur)

---

## Einleitung

Cybersecurity bleibt eine der grĂ¶ĂŸten Herausforderungen fĂŒr moderne Unternehmen. WĂ€hrend Organisationen traditionell in Perimeter-Sicherheitsmaßnahmen wie Firewalls und Intrusion-Detection-Systeme (IDS) investierten, hat die zunehmende HĂ€ufigkeit von Insider-Bedrohungen den Fokus auf die Erkennung interner Anomalien verlagert. Insider-Bedrohungen – egal ob durch böswillige Insider, fahrlĂ€ssige Mitarbeitende oder kompromittierte Nutzer – machen einen erheblichen Anteil der SicherheitsvorfĂ€lle aus.  

DarĂŒber hinaus erschweren generative Verfahren der KĂŒnstlichen Intelligenz (KI) die Lage zusĂ€tzlich: Automatisierte Systeme können hochgradig ĂŒberzeugende Fake-Profile erzeugen, die legitimes Verhalten nachahmen.  

In diesem Beitrag stellen wir ein neuartiges Deep-Synthesis-basiertes Insider-Intrusion-Detection-Modell (DS-IID) vor, das diese Herausforderungen direkt adressiert. Das Modell erkennt nicht nur böswillige Insider mittels Deep Learning, sondern unterscheidet auch zwischen echten und KI-generierten (synthetischen) Benutzerprofilen. Wir erlĂ€utern die zugrunde­liegenden Prinzipien, geben technische Details, zeigen Code-Beispiele fĂŒr reale Szenarien und diskutieren die Performance basierend auf dem CERT-Insider-Threat-Datensatz.

---

## Insider-Bedrohungen und KI-generierte Gefahren verstehen

### Insider-Bedrohungen: eine hartnÀckige Herausforderung

Insider-Bedrohungen gehen von internen Akteuren – Mitarbeitenden, Dienstleistern oder vertrauenswĂŒrdigen GerĂ€ten – aus, die legitimen Zugriff besitzen. Durch ihre erhöhten Rechte können sie traditionelle Sicherheitskontrollen umgehen, was ihre Entdeckung erschwert. Aktuellen Studien zufolge lassen sich bis zu 79 % der SicherheitsvorfĂ€lle auf Insider zurĂŒckfĂŒhren.

### Die Rolle generativer KI bei der Insider-Erkennung

Mit dem Aufkommen generativer KI hat sich die Lage weiter verkompliziert. Solche Systeme können realistisch wirkende, synthetische Daten erzeugen, die legitime NutzeraktivitÀten imitieren. Angreifer verschleiern ihre Absichten hinter dieser Fassade und traditionelle IDS-Systeme haben Schwierigkeiten, echte von synthetischen AktivitÀten zu unterscheiden.

---

## Das DS-IID-Modell: Grundlagen und BeitrÀge

Das DS-IID-Modell kombiniert Deep Feature Synthesis, generative Modellierung und binÀres Deep Learning. Damit verfolgt es drei Hauptziele:

1. **Erkennung böswilliger Insider mittels ĂŒberwachten Lernens.**  
2. **Bewertung, wie gut generative Algorithmen echte Nutzerprofile imitieren können.**  
3. **Unterscheidung zwischen realen und synthetischen Anomalien, sodass KI-generierte Bedrohungen korrekt markiert werden.**

### Deep Feature Synthesis (DFS) zur Benutzerprofilierung

DFS bildet das HerzstĂŒck des DS-IID-Modells. Im Unterschied zu manueller Feature-Entwicklung ermöglicht DFS die automatisierte Extraktion detaillierter Nutzerprofile aus Rohdaten. Vorteile:

- Geringerer manueller Aufwand und weniger Fehlerquellen.  
- Schnelle Anpassung an neue Datentypen und Bedrohungsformen.  
- Robustere Grundlage fĂŒr nachgelagerte Klassifikationsaufgaben.

### Integration von generativer KI und Deep Learning

Generative Modelle simulieren reale Nutzerprofile, um die Wahrscheinlichkeit zu prĂŒfen, dass ein verdĂ€chtiges Profil KI-erzeugt ist. Gleichzeitig klassifiziert ein binĂ€res Deep-Learning-Modell – trainiert auf echten und synthetischen Daten – ein Profil als legitim oder böswillig. Diese DualitĂ€t ermöglicht:

- Erkennungsgenauigkeit von bis zu 97 % und eine AUC von 0,99 (CERT-Datensatz).  
- Effektiven Umgang mit Daten­ungleich­gewicht, wodurch sowohl False Positives als auch False Negatives reduziert werden.

---

## Umgang mit Datenungleichgewicht in der IT-Sicherheit

In Security-Daten ĂŒberwiegt meist die Menge harmloser Ereignisse. DS-IID nutzt deshalb **On-the-Fly Weighted Random Sampling**: WĂ€hrend des Trainings werden die Klassengewichte dynamisch angepasst, sodass seltene, bösartige Ereignisse angemessen berĂŒcksichtigt werden. Dadurch steigt die ZuverlĂ€ssigkeit der Erkennung ohne die Gesamtleistung zu beeintrĂ€chtigen.

---

## Technische Architektur und Implementierung

DS-IID basiert auf einer mehrschichtigen Architektur fĂŒr Daten­verarbeitung, Feature-Synthese und Klassifikation.

### Datenerfassung und Vorverarbeitung

Verwendet werden u. a. öffentliche DatensÀtze wie CERT. Schritte:

- **Normalisierung:** Vereinheitlichung der Datenformate.  
- **Datenbereinigung:** Entfernen irrelevanter oder verrauschter EintrÀge.  
- **Zeitstempel-Abgleich:** Chronologische Konsistenz fĂŒr Sequenz­modelle.

### Feature-Extraktion und ‑Synthese

Nach der Vorverarbeitung erfolgt DFS:

- **Tabellarische Transformation** der Rohlogs.  
- **Automatisierte Feature-Generierung** (Aggregationen, Zeitreihen­muster).  
- **Feature-Auswahl** mittels statistischer Kriterien (z. B. Mutual Information, Pearson-Korrelation).

### BinÀre Deep-Learning-Klassifikation

Der finale Schritt ist die Klassifikation:

- **Modellarchitektur:** Mehrere Fully-Connected-Layer mit ReLU und Dropout.  
- **Loss-Funktion:** BinÀre Cross-Entropy.  
- **On-the-Fly Weighted Sampling:** Dynamische Gewichtung wÀhrend des Trainings.

```python
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout

# Definition des binÀren DS-IID-Klassifikationsmodells
def build_ds_iid_model(input_dim):
    model = Sequential()
    model.add(Dense(128, activation='relu', input_dim=input_dim))
    model.add(Dropout(0.3))
    model.add(Dense(64, activation='relu'))
    model.add(Dropout(0.3))
    model.add(Dense(32, activation='relu'))
    model.add(Dropout(0.3))
    model.add(Dense(1, activation='sigmoid'))
    
    model.compile(optimizer='adam',
                  loss='binary_crossentropy',
                  metrics=['accuracy'])
    return model

# Beispielhafte Nutzung
if __name__ == "__main__":
    input_dimensions = 30  # Beispiel: Feature-Anzahl nach DFS
    model = build_ds_iid_model(input_dimensions)
    model.summary()

Praxisbeispiele und Code-Samples

Bash-basiertes Log-Scanning

Das folgende Bash-Skript zeigt, wie System-Logs auf verdÀchtige Login-Versuche untersucht werden können.

#!/bin/bash
# Pfad zur Logdatei (Beispiel: /var/log/auth.log)
LOG_FILE="/var/log/auth.log"

# Suchmuster fĂŒr verdĂ€chtige EintrĂ€ge (z. B. wiederholte Fehlversuche)
PATTERN="Failed password|Invalid user"

echo "Durchsuche Logs nach verdÀchtigen AktivitÀten..."
grep -E "$PATTERN" "$LOG_FILE" > suspicious_activity.log

echo "Anzahl verdÀchtiger EintrÀge:"
wc -l suspicious_activity.log

echo "Erste 10 verdÀchtige Zeilen:"
head -n 10 suspicious_activity.log

Python-Skript fĂŒr Parsing und Deep Feature Synthesis

import pandas as pd
from datetime import datetime

# Logdatei einlesen und in DataFrame umwandeln
def parse_log_file(log_file_path):
    data = []
    with open(log_file_path, 'r') as f:
        for line in f:
            # Beispielzeile: "Jan 01 12:34:56 hostname sshd[1234]: Failed password for invalid user"
            parts = line.split()
            timestamp_str = " ".join(parts[0:3])
            try:
                timestamp = datetime.strptime(timestamp_str, '%b %d %H:%M:%S')
            except ValueError:
                continue
            data.append({
                'timestamp': timestamp,
                'hostname': parts[3],
                'service': parts[4].split('[')[0],
                'message': " ".join(parts[5:])
            })
    return pd.DataFrame(data)

# Beispielhafte Feature-Synthese nach Hostname
def generate_features(df):
    feature_df = df.groupby('hostname').size().reset_index(name='suspicious_count')
    df['hour'] = df['timestamp'].dt.hour
    hourly_features = df.groupby(['hostname', 'hour']).size().unstack(fill_value=0)
    feature_df = feature_df.merge(hourly_features, on='hostname', how='left')
    return feature_df

if __name__ == "__main__":
    log_df = parse_log_file('suspicious_activity.log')
    features = generate_features(log_df)
    print("Generierte Features:")
    print(features.head())

    # Export fĂŒr das Training des DS-IID-Modells
    features.to_csv('user_features.csv', index=False)

Dieses Skript zeigt:

  • Log-Parsing in ein strukturiertes DataFrame,
  • Feature-Generierung mittels Aggregationen und Zeitmerkmalen,
  • Export der Feature-Matrix fĂŒr das Training.

Experimentelle Ergebnisse und Evaluation

Mit dem CERT-Datensatz erzielte DS-IID:

  • Genauigkeit: 97 %
  • AUC: 0,99
  • Echte vs. KI-Profile: > 99 % Unterscheidungsgenauigkeit.

Bewertungsmetriken

Neun Metriken wurden herangezogen, u. a.:

  • Cohen’s Kappa
  • True Positive Rate (TPR)
  • False Positive Rate (FPR)
  • False Alarm Rate (FAR)
  • Recall, Precision, F1-Score
  • Accuracy, AUC

Durch dynamisches Sampling behielt DS-IID auch bei unbalancierten Daten hohe Leistung.

Vergleich mit traditionellen Methoden

Klassische IDS setzen oft auf manuelle Regeln oder unĂŒberwachtes Clustering. DS-IID vereint automatisierte Feature-Synthese mit Deep Learning und ĂŒbertrifft so frĂŒhere AnsĂ€tze (54 – 98 % Genauigkeit) deutlich.


Best Practices fĂŒr den Einsatz in Produktivsystemen

  1. Integration in SIEM-Lösungen fĂŒr Echtzeit-Alerts.
  2. RegelmĂ€ĂŸiges Retraining mit aktuellen Daten und synthetischen Profilen.
  3. Hybrider Ansatz: DS-IID und herkömmliche IDS kombinieren.
  4. Datenschutz­konformitÀt bei Log- und Nutzerdaten.
  5. Performance-Monitoring und Feedback-Schleifen.
  6. Schulung des Security-Teams zur Interpretation der Model-Outputs.

Fazit

DS-IID stellt einen bedeutenden Fortschritt in der Insider-Erkennung dar, insbesondere angesichts KI-generierter TĂ€uschungen.

Wesentliche Punkte:

  • On-the-Fly-Sampling gleicht Datenungleichgewichte aus.
  • Automatisierte DFS reduziert manuellen Aufwand.
  • 97 % Genauigkeit / 0,99 AUC auf dem CERT-Datensatz.
  • Praxisnahe Skripte demonstrieren die Einbindung in Log-Analysen.

Durch die Kombination von Deep Synthesis und KI-gestĂŒtzter Detektion erweitert DS-IID klassische IDS-Funktionen und schafft neue Möglichkeiten zur Abwehr automatisierter, KI-basierter Bedrohungen.


Literatur

  1. CERT Insider Threat Center
  2. Deep Feature Synthesis – Featuretools
  3. TensorFlow
  4. Keras Dokumentation
  5. Scientific Reports
  6. Daten­ungleich­gewicht in der Cybersecurity
  7. Generative KI in der IT-Sicherheit

Durch die Verbindung modernster Methoden mit praxisnahen Code-Beispielen zeigt dieser Leitfaden, wie DS-IID eine skalierbare und robuste Lösung zur Insider-Bedrohungserkennung bereitstellt. Viel Erfolg beim Implementieren – und bleiben Sie sicher!

🚀 BEREIT FÜR DEN NÄCHSTEN SCHRITT?

Bringen Sie Ihre Cybersecurity-Karriere auf die nÀchste Stufe

Wenn Sie diesen Inhalt wertvoll fanden, stellen Sie sich vor, was Sie mit unserem umfassenden 47-wöchigen Elite-Trainingsprogramm erreichen könnten. Schließen Sie sich ĂŒber 1.200 Studenten an, die ihre Karrieren mit den Techniken der Unit 8200 transformiert haben.

97% Vermittlungsquote
Elite Unit 8200 Techniken
42 Praktische Labs