Die digitale Transformation und der elektronische Handel werden global vorangetrieben. Damit nimmt der Anspruch an die Qualität der IT weiterhin zu – hinsichtlich der Verfügbarkeit (Performance) und des Nutzererlebnisses (User Experience). Doch deren Status ist kritisch: 77% der Verbraucher haben wegen Leistungsproblemen die Nutzung bestimmter digitaler Dienste eingestellt oder Anwendungen von ihren Geräten gelöscht.1 Der Bedarf an Lösungen für das Management effektiver Performance ist groß: Die Verantwortlichen brauchen eine Transparenz ihrer IT-Architektur und intelligente Lösungen, um mit geringem Aufwand für permanent stabile Geschäftsprozesse zu sorgen. Doch wegen der enormen Komplexität der Systeme reichen klassische Formen der Überwachung (Monitoring) nicht mehr aus. Zur Absicherung geschäftskritischer Performance ist die Einführung von Observability notwendig.
Rund 60% der deutschen Unternehmen wollen 2024 hauptsächlich in den IT-Betrieb investieren, um auf neue Kundenanforderungen zu reagieren. Die E-Commerce-Performance soll verbessert werden. Das Ziel: mehr Stabilität, größere Flexibilität und eine höhere System-Skalierbarkeit für gute Kundenerlebnisse (Customer Experience).2
Mit Konsolidierungen von IT-Infrastrukturen ist immer auch die Integration effektiver Überwachungs-Tools erforderlich, um die User Experience auf einem optimalen Niveau zu halten. Denn der Betrieb von Cloud-Infrastrukturen in Verbindung mit umfangreichen Softwarepaketen (Container), Künstlicher Intelligenz und in eigenen Rechenzentren gehosteten Anwendungen bringt bei Datenmengen im Terabytebereich diverse Anomalien mit sich.
Das klassische Monitoring steht mit der Komplexität vor unlösbaren Aufgaben. Denn es reicht alleine für das Behandeln bekannter und erwarteter Anomalien aus – der „known Knowns“. Das sind nur etwa 1% der Vorfälle! In komplexen Umgebungen gibt es überwiegend unbekannte und unerwartete Ereignisse – „unknown Unknowns“. Die herkömmlichen Überwachungen zeigen zwar, dass etwas nicht stimmt, aber nicht, „was“ genau und „warum“. Die Folgen sind oft eine schwierige Fehlersuche und eine stundenlang schwache Performance. Im Business ein No-go.
Für eine stabile Performance müssen Unternehmen Observability einführen, ein Echtzeit-Monitoring mit automatisierten Fehleranalysen und Debugging-Prozessen sowie kurzen Mean Times to Resolution (MTTR) bei schwierigeren Anomalien.
Observability erweitert das KI-gestützte Monitoring komplexer Infrastrukturen. Das Konzept basiert auf der kombinierten Auswertung von Logs, Metriken und Traces. Logs liefern zum Beispiel Informationen zu Ereignissen, die in der Umgebung einer Anwendung auftreten sowie zu angebundenen Endgeräten und Nutzern. Metriken geben darüber Auskunft, wie viele Transaktionen sie pro Sekunde verarbeitet und zur temporären Auslastung von einzelnen Komponenten wie CPU oder Speicher. Traces zeichnen unter anderem auf, wie lange ihre Systeme brauchen, um eine Anwendertransaktion zu verarbeiten, oder welche unter ihnen Fehler verursachen. Durch das kombinierte Auswerten von Logs, Metriken entsteht eine ausgesprochen große Transparenz. So lässt sich zum Beispiel mit der kontinuierlichen Analyse von Metriken beobachten, dass sich die Antwortrate einer Anwendung verlangsamt, was auf Leistungsprobleme hindeutet. Das entsprechende Log aber kann dazu die nähere Auskunft geben, dass komplexere Transaktionen verarbeitet wurden.
Die Einführung von Observability erfolgt durch das Instrumentieren ganzer Systeme, um Metriken, Traces und Logs zu erfassen. Aufgrund der dabei aufkommenden riesigen Mengen an Daten ist deren Analysen mit KI erforderlich. Die Informationen werden schnell ausgewertet und wichtige Erkenntnisse gewonnen. AI-basierte Lösungen sondieren Anomalien, ordnen wiederkehrende Fehler automatischen Korrekturprozessen zu und senden unbekannte an Spezialisten. Observability beschleunigt das Aufspüren und Definieren von Anomalien wesentlich, und zwar auch solcher, welche die Administratoren weder verstehen, noch erwartet haben. Denn anhand der Auswertung von Metriken, Logs und Traces lassen sie sich schnell finden, verstehen und beseitigen.
Für das digitale Business bietet Observability neben einer optimalen Performance weitere Vorteile. Zum Beispiel sind Daten zum Kundenverhalten mit technischen Informationen zu korrelieren, um die Auswirkungen von Veränderungen des Systems auf die Entwicklung des Geschäfts festzustellen. Ferner können anhand von statistischen Daten Prognosen über wahrscheinliche Ereignisse wie künftige System-Auslastungen getroffen werden (Predictive Analytics), um beispielsweise Skalierungen der Rechenleistung mit Blick auf erhöhte Zugriffszeiten zu planen.
Durch ein effizientes Troubleshooting entstehen große Freiräume für DevOps-Teams zum Bereitstellen neuer Anwendungen. Denn dieser Prozess wird durch Observability verkürzt: Es lassen sich bereits während der Integration von Applikationen Logs, Metriken und Traces mit Daten aus einer CI/CD-Pipeline verbinden, um herauszufinden, welchen Einfluss die Veränderung auf die Leistung in einer Umgebung hat. Eventuelle Probleme werden so schon in diesem Stadium sichtbar und können beseitigt werden. Die Entwickler und Programmierer gewinnen damit insgesamt mehr Zeit für andere Projekte.
Das Konzept hat große Vorteile für das Geschäft. Laut Umfragen investieren Unternehmen zunehmend in Observability, um höhere Umsätze zu erzielen. Die Befragten schätzten, dass der jährliche Return on Investment das Doppelte der jeweiligen Investitionen beträgt.3 Observability zahlt sich aus.
Quellen und Weiterführende Links
1 Internationale Studie. Cisco. The App Attention Index 2023: Beware The Application Generation: https://www.appdynamics.com/c/dam/r/appdynamics/2023/06-resources/02-reports/The-App-Attention-Index-2023.pdf
2 Lünendonk-Studie: Was CIOs für 2024 und 2025: erwartenhttps://www.luenendonk.de/aktuelles/presseinformation/luenendonk-studie-was-cios-fuer-2024-und-2025-erwarten/
3 New Relic. Observability Forecast 2023. Management Summary: https://newrelic.com/resources/report/observability-forecast/2023/executive-summary