
Veröffentlicht: 2. Januar 2025 | Scientific Reports
Autoren: Hazem M. Kotb, Tarek Gaber, Salem AlJanah, Hossam M. Zawbaa, Mohammed Alkhathami u. a.
Cybersecurity bleibt eine der größten Herausforderungen für moderne Unternehmen. Während Organisationen traditionell in Perimeter-Sicherheitsmaßnahmen wie Firewalls und Intrusion-Detection-Systeme (IDS) investierten, hat die zunehmende Häufigkeit von Insider-Bedrohungen den Fokus auf die Erkennung interner Anomalien verlagert. Insider-Bedrohungen – egal ob durch böswillige Insider, fahrlässige Mitarbeitende oder kompromittierte Nutzer – machen einen erheblichen Anteil der Sicherheitsvorfälle aus.
Darüber hinaus erschweren generative Verfahren der Künstlichen Intelligenz (KI) die Lage zusätzlich: Automatisierte Systeme können hochgradig überzeugende Fake-Profile erzeugen, die legitimes Verhalten nachahmen.
In diesem Beitrag stellen wir ein neuartiges Deep-Synthesis-basiertes Insider-Intrusion-Detection-Modell (DS-IID) vor, das diese Herausforderungen direkt adressiert. Das Modell erkennt nicht nur böswillige Insider mittels Deep Learning, sondern unterscheidet auch zwischen echten und KI-generierten (synthetischen) Benutzerprofilen. Wir erläutern die zugrundeliegenden Prinzipien, geben technische Details, zeigen Code-Beispiele für reale Szenarien und diskutieren die Performance basierend auf dem CERT-Insider-Threat-Datensatz.
Insider-Bedrohungen gehen von internen Akteuren – Mitarbeitenden, Dienstleistern oder vertrauenswürdigen Geräten – aus, die legitimen Zugriff besitzen. Durch ihre erhöhten Rechte können sie traditionelle Sicherheitskontrollen umgehen, was ihre Entdeckung erschwert. Aktuellen Studien zufolge lassen sich bis zu 79 % der Sicherheitsvorfälle auf Insider zurückführen.
Mit dem Aufkommen generativer KI hat sich die Lage weiter verkompliziert. Solche Systeme können realistisch wirkende, synthetische Daten erzeugen, die legitime Nutzeraktivitäten imitieren. Angreifer verschleiern ihre Absichten hinter dieser Fassade und traditionelle IDS-Systeme haben Schwierigkeiten, echte von synthetischen Aktivitäten zu unterscheiden.
Das DS-IID-Modell kombiniert Deep Feature Synthesis, generative Modellierung und binäres Deep Learning. Damit verfolgt es drei Hauptziele:
DFS bildet das Herzstück des DS-IID-Modells. Im Unterschied zu manueller Feature-Entwicklung ermöglicht DFS die automatisierte Extraktion detaillierter Nutzerprofile aus Rohdaten. Vorteile:
Generative Modelle simulieren reale Nutzerprofile, um die Wahrscheinlichkeit zu prüfen, dass ein verdächtiges Profil KI-erzeugt ist. Gleichzeitig klassifiziert ein binäres Deep-Learning-Modell – trainiert auf echten und synthetischen Daten – ein Profil als legitim oder böswillig. Diese Dualität ermöglicht:
In Security-Daten überwiegt meist die Menge harmloser Ereignisse. DS-IID nutzt deshalb On-the-Fly Weighted Random Sampling: Während des Trainings werden die Klassengewichte dynamisch angepasst, sodass seltene, bösartige Ereignisse angemessen berücksichtigt werden. Dadurch steigt die Zuverlässigkeit der Erkennung ohne die Gesamtleistung zu beeinträchtigen.
DS-IID basiert auf einer mehrschichtigen Architektur für Datenverarbeitung, Feature-Synthese und Klassifikation.
Verwendet werden u. a. öffentliche Datensätze wie CERT. Schritte:
Nach der Vorverarbeitung erfolgt DFS:
Der finale Schritt ist die Klassifikation:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
# Definition des binären DS-IID-Klassifikationsmodells
def build_ds_iid_model(input_dim):
model = Sequential()
model.add(Dense(128, activation='relu', input_dim=input_dim))
model.add(Dropout(0.3))
model.add(Dense(64, activation='relu'))
model.add(Dropout(0.3))
model.add(Dense(32, activation='relu'))
model.add(Dropout(0.3))
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='adam',
loss='binary_crossentropy',
metrics=['accuracy'])
return model
# Beispielhafte Nutzung
if __name__ == "__main__":
input_dimensions = 30 # Beispiel: Feature-Anzahl nach DFS
model = build_ds_iid_model(input_dimensions)
model.summary()
Das folgende Bash-Skript zeigt, wie System-Logs auf verdächtige Login-Versuche untersucht werden können.
#!/bin/bash
# Pfad zur Logdatei (Beispiel: /var/log/auth.log)
LOG_FILE="/var/log/auth.log"
# Suchmuster für verdächtige Einträge (z. B. wiederholte Fehlversuche)
PATTERN="Failed password|Invalid user"
echo "Durchsuche Logs nach verdächtigen Aktivitäten..."
grep -E "$PATTERN" "$LOG_FILE" > suspicious_activity.log
echo "Anzahl verdächtiger Einträge:"
wc -l suspicious_activity.log
echo "Erste 10 verdächtige Zeilen:"
head -n 10 suspicious_activity.log
import pandas as pd
from datetime import datetime
# Logdatei einlesen und in DataFrame umwandeln
def parse_log_file(log_file_path):
data = []
with open(log_file_path, 'r') as f:
for line in f:
# Beispielzeile: "Jan 01 12:34:56 hostname sshd[1234]: Failed password for invalid user"
parts = line.split()
timestamp_str = " ".join(parts[0:3])
try:
timestamp = datetime.strptime(timestamp_str, '%b %d %H:%M:%S')
except ValueError:
continue
data.append({
'timestamp': timestamp,
'hostname': parts[3],
'service': parts[4].split('[')[0],
'message': " ".join(parts[5:])
})
return pd.DataFrame(data)
# Beispielhafte Feature-Synthese nach Hostname
def generate_features(df):
feature_df = df.groupby('hostname').size().reset_index(name='suspicious_count')
df['hour'] = df['timestamp'].dt.hour
hourly_features = df.groupby(['hostname', 'hour']).size().unstack(fill_value=0)
feature_df = feature_df.merge(hourly_features, on='hostname', how='left')
return feature_df
if __name__ == "__main__":
log_df = parse_log_file('suspicious_activity.log')
features = generate_features(log_df)
print("Generierte Features:")
print(features.head())
# Export für das Training des DS-IID-Modells
features.to_csv('user_features.csv', index=False)
Dieses Skript zeigt:
Mit dem CERT-Datensatz erzielte DS-IID:
Neun Metriken wurden herangezogen, u. a.:
Durch dynamisches Sampling behielt DS-IID auch bei unbalancierten Daten hohe Leistung.
Klassische IDS setzen oft auf manuelle Regeln oder unüberwachtes Clustering. DS-IID vereint automatisierte Feature-Synthese mit Deep Learning und übertrifft so frühere Ansätze (54 – 98 % Genauigkeit) deutlich.
DS-IID stellt einen bedeutenden Fortschritt in der Insider-Erkennung dar, insbesondere angesichts KI-generierter Täuschungen.
Wesentliche Punkte:
Durch die Kombination von Deep Synthesis und KI-gestützter Detektion erweitert DS-IID klassische IDS-Funktionen und schafft neue Möglichkeiten zur Abwehr automatisierter, KI-basierter Bedrohungen.
Durch die Verbindung modernster Methoden mit praxisnahen Code-Beispielen zeigt dieser Leitfaden, wie DS-IID eine skalierbare und robuste Lösung zur Insider-Bedrohungserkennung bereitstellt. Viel Erfolg beim Implementieren – und bleiben Sie sicher!
Wenn Sie diesen Inhalt wertvoll fanden, stellen Sie sich vor, was Sie mit unserem umfassenden 47-wöchigen Elite-Trainingsprogramm erreichen könnten. Schließen Sie sich über 1.200 Studenten an, die ihre Karrieren mit den Techniken der Unit 8200 transformiert haben.