Insights
AI-Verstärkung für die IT Security
Mehr Schlagkraft mit DGA-Erkennung, SIEM und neuronalen Netzen
Mit welchem AI-gestützten "Waffenarsenal" Unternehmensnetzwerke bzw. kritische IT-Infrastrukturen attackiert werden, schilderte unser Blogbeitrag zur "Cyber Kill Chain". In der Fortsetzung wechseln wir nun die Perspektive und zeigen, wie AI die Verteidigung der Netzwerksicherheit stärken kann.
Wie ein erfolgreicher Vernichtungsfeldzug im Internet aussieht, zeigte der "Morris-Wurm", indem er innerhalb von 24 Stunden ca. 6.000 Rechner lahmlegte. Das geschah allerdings schon 1988 und betraf etwa 10 % der rund 60.000 Computer, die seinerzeit mit dem Internet verbunden waren. Der Cyber-Wurm sicherte sich damit den Titel des ersten Großangriffes in der Geschichte des Internets. Über 30 Jahre später ist das Bedrohungspotenzial von Cyberangriffen weiter präsent – die Varianten der Methoden und Tools aber ganz zeitgemäß ausgefeilter und dank "Artificial Intelligence" (AI) automatisierbar. Die gute Nachricht: Zur Sicherung der Verteidigungslinien bietet AI ebenfalls zahlreichen Optionen. Diese fünf Ansatzpunkte sollten IT-Sicherheitsverantwortliche kennen:
1. Automatisierung in Antivirus
Die Erkennung von Schadcode mittels Antivirussoftware erfolgt hauptsächlich über das Identifizieren markanter Binärmuster (auch als Fingerabdruck bezeichnet) in den zu untersuchenden Dateien. Dabei bringt die Antiviruslösung eine regelmäßig aktualisierte Liste von Mustern oder Checksums bekannter bösartiger Dateien mit und prüft die Dateien im lokalen Speicher/Netzwerk unentwegt auf Übereinstimmung mit diesen. Angreifer können damit durch kleinste Variationen ihrer Binärdateien diesem simplen Matching entgehen. Der Hersteller der Antivirussoftware muss diese neuen Variationen aufwändig analysieren und dann als Variation einer bekannten Malware seiner Datenbank hinzufügen.
Methoden des Machine Learning sind gut darin, Ähnlichkeiten zu erkennen. Diese Methoden werden von Herstellern von Antiviruslösungen verwendet, um neue Varianten bekannter Malwares zu erkennen und ihrem Ursprung zuzuordnen. Diese automatisierte Klassifizierung und Zuordnung wird dann von den Analysten geprüft und bestätigt (oder eben verworfen), reduziert aber für Variationen bekannter Malwares den Aufwand der Analyse und ermöglicht damit eine schnellere Bereitstellung von passenden Mustern an die Kunden. Da aber diese Unschärfe in der Erkennung von Malwarevariationen auch zu Falschmeldungen führen kann, sollten die Ergebnisse auf jeden Fall durch Analysten geprüft werden. Damit ergibt sich also immer noch eine gewisse Zeitspanne, bis Variationen von bekannten Malwares auch im Praxiseinsatz erkannt und bekämpft werden.
Verschiedene Hersteller von Antiviruslösungen werben auch mit AI-Methoden zur Erkennung völlig neuer Schadsoftware. Dabei werden Heuristiken und Methoden des Machine Learning in Ergänzung zu den traditionellen Mustern in der lokal betriebenen Instanz des Anti-Virus eingesetzt. Wie gut diese Mechanismen funktionieren, scheint allerdings fraglich angesichts der immer wieder über die IT-Landschaft ziehenden Wellen von neuen Bedrohungen, welche erfolgreich Zero-Day Attacken nutzen. Es bleibt letztlich ein Wettlauf zwischen den Angreifern und den Antivirusherstellern.
2. Angriffe aus logfiles über viele Netzwerke hinweg erkennen
Da es müßig ist, die Logdateien jedes einzelnen Gerätes nur auf dem jeweiligen Gerät untersuchen zu können, haben sich zentrale Security Incident and Event Management Systeme (kurz SIEM) als Erweiterung einer zentralen Logserverlösung schon länger durchgesetzt. Auch auf diesen Datenbeständen kann mit Methoden des Machine Learning nach typischen Gruppen von gemeinsam auftretenden Ereignissen gesucht werden. Da die Logauswertung damit über die Grenzen eines einzelnen Gerätes oder Systems hinweg erfolgt, lassen sich auch Ereignisse verschiedener Systeme korrelieren. Bei dieser Datenauswertung ergeben sich ebenfalls bessere und verlässlichere Ergebnisse, je größer die Menge der verfügbaren Daten ist.
Speziell in größeren Organisationen sind sowohl die dafür nötigen technischen Ressourcen vorhanden, als auch die nötige Anzahl und Expertise der Mitarbeiter. Der Aufwand, ein solches System gewinnbringend mit Machine-Learning-Methoden einzusetzen, sollte nicht unterschätzt werden, macht er doch den effektiven und kosteneffizienten Einsatz dieser Methoden für kleine und mittlere Organisationsgrößen schnell unerreichbar.
Eine Reihe Anbieter hat dies erkannt und bietet zentrale SIEM-Lösungen als Cloud-Lösung an. Damit können die verwendeten Algorithmen auch über Organisationen hinweg Daten auswerten, es erfolgt also implizit ein gegenseitiger Austausch von Informationen über die Bedrohungslage. Allerdings ist bei diesen Lösungen die Einsicht, wie der Algorithmus zu seiner Bewertung kommt, noch weniger möglich als bei lokalen on-premise Lösungen. Oftmals ist dieses Wissen auch das Geheimnis des jeweiligen Anbieters.
Auch ein ungewollter Datenaustausch zu Dritten kann bei diesen Lösungen nicht ausgeschlossen werden. Das können offensichtliche Datenlecks mit Vollzugriff auf die Datenbank des Anbieters sein, die Risikobewertung basiert in diesen Fällen "lediglich" auf dem Vertrauen gegenüber dem Anbieter. Es können zudem Datenlecks auftreten, wo aus der Ausgabe eines Algorithmus auf die Trainingseingabe geschlossen werden kann. Da speziell in logfiles auch regelmäßig persönliche Informationen erscheinen, ist in beiden Fällen der Weg zur Verletzung des Datenschutzes nicht weit.
3. Botnetze identifizieren
Botnets sind Netzwerke infizierter Maschinen, die verwendet werden, um konzertiert Schadaktionen im Internet, wie beispielsweise DDoS-Attacken, durchzuführen. In ihrer Malware nutzen die Angreifer dabei oft sogenannte "Domain-Generation-Algorithmen" (DGAs) zur Kommunikation mit der beteiligten Kommandoinfrastruktur. Sowohl die Identifikation dieser sogenannten C2-Server als auch die Erkennung infizierter Maschinen sind Ziele, die mittels Machine Learning unterstützt werden können.
Beispielsweise wird hier zwischen normaler Kommunikation und Verkehr zu C2-Servern mittels der Abweichungen im Kommunikationsvolumen, in der zeitlichen Verteilung und in den Zugriffsmustern der Clients unterschieden. Andere Ansätze finden mögliche infizierte Clients durch das Clustern und Korrelieren von aus Verbindungsstatistiken gewonnenen Charakteristika und anhand von IDS-gemeldeten Alarmen.
4. Automatisch generierte Domainnamen erkennen
Die Erkennung von durch Algorithmen erzeugten Domainnamen dient unter anderem der Bekämpfung von Botnets. Zwei konkurrierende Ansätze sind zu unterscheiden: Featurebasierte Methoden extrahieren bestimmte strukturelle, statistische oder linguistische Features, und wenden auf die so gewonnenen Repräsentationen klassische Ansätze des Machine Learning wie beispielsweise Random Forests an. Solche Features sind beispielsweise die Verteilung von n-Grammen oder der Anteil der Vokale im Domainnamen. Featurefreie Ansätze verzichten auf dieses Expertenwissen und ermitteln die relevanten Features eigenständig. Sie basieren deswegen meist auf neuronalen Netzen. Unter anderem bieten sich für derartige Klassifikatoren auf LSTMs (Long short term memory) basierende Modelle an.
Die Klassifikatoren scheinen nicht sehr robust gegenüber Variationen in den zu klassifizierenden Domainnamen zu sein. Möglicherweise lässt sich dieses Problem ohne Einbeziehung des Domainkontextes nicht lösen. Die in der Realität verwendeten domainerzeugenden Algorithmen bilden zwei Klassen – die Domains können zeichenweise oder aus Wörterbüchern erzeugt werden. Da die Künstlichkeit der durch letztere Methoden generierten Namen oft auch für das menschliche Auge nicht offensichtlich ist, ist diese Klasse erheblich schwerer zu erkennen und ein aktives Forschungsgebiet.
5. Trafficgenerierung
Die Erhebung von Daten stellt sowohl für die Forschung als auch für den Endnutzer ein erhebliches Problem dar. Datensätze altern schnell und sind deswegen für praxisnahe Forschung von eingeschränktem Wert. Methoden, die neueste Angriffsmethoden erkennen sollen, können deswegen nur schlecht entwickelt und getestet werden. Auch die Verwendung von in Testbeds erzeugten Datensätzen stellt aufgrund der eingeschränkten Realitätsnähe dieser Testbeds nur bedingt eine Alternative dar. Auch für produktiv eingesetzte Systeme sind die rechtlichen Rahmenbedingungen ungünstig, insbesondere wenn diese Daten off-premise, also z.B. in einer Cloud und durch Dritte verarbeitet werden sollen.
Eine Möglichkeit, dem zu begegnen, ist die Generation synthetischer Daten. Dies geschieht mittels spezieller Neuronaler Netze. Diese sogenannten GANs (Generative Adversarial Networks) sind in der Lage, aus vorhandenen Daten neue Datensätze mit ähnlichen Eigenschaften zu erzeugen, welche dann zum Lernen und Validieren benutzt werden können. Dies erhöht die Variabilität der verfügbaren Daten und stellt auch einen weiteren Schutz gegen Deanonymisierung dar. Darüber hinaus reduziert es auch die Angreifbarkeit der (möglicherweise in einer Cloud laufenden) AI-Modelle. Diese Art der Datensynthese ist allerdings zum gegenwärtigen Zeitpunkt Objekt aktiver Forschung und noch nicht praxistauglich.
Bildquelle: © oatawa – stock.adobe.com
Beim Datenaustausch zwischen IT- und OT-Netzen muss höchster Schutz vor Cyberangriffen gewährleistet sein. Informieren Sie sich jetzt über den cognitix Threat Defender.