PagerDuty logo

Was ist AIOps und warum sollte mich das interessieren?

von Jerry Weltsch

3. DEZEMBER 2020

Künstliche Intelligenz für IT Operations (AIOps - Artificial Intelligence for IT Operations) hat ganz unterschiedliche Bedeutungen, je nach dem, wen man fragt; daher ist es schwierig, sich auf eine genaue Definition festzulegen. In einer Zeit, in der digitale Beschleunigung oberste Priorität hat und Unternehmen kulturelle Verschiebungen hin zu neuen Betriebsmodellen wie beispielsweise Service-Verantwortung (Service Ownership) auswerten, um in einer komplexen Welt mit hybriden Cloudumgebungen größere Effizienz zu erzielen, stellt sich AIOps als eine attraktive Investitionsmöglichkeit zur Lösung zentraler IT-Probleme heraus. Aber was ist das genau, und vor allem was kann es für Sie tun?

Nancy Gohring, Senior Analyst von 451 Research, weiß nur zu gut, wie schwierig es ist, AIOps zu definieren - sie hat mehrere Umfragen im Bereich IT Operations und bei professionellen Entwicklern durchgeführt, um deren Sichtweise auf und Nutzung von AIOps zu verstehen. Wir haben Nancy gebeten, bei einigen Interviews mit den besagten Fachleuten ein bisschen mehr in die Tiefe zu gehen, und sie kam zu der Erkenntnis, dass die Antworten total querbeet waren.

Aufgrund ihrer Forschung zu diesem Thema konnte sie allerdings mit Sicherheit behaupten, dass AIOps im weitesten Sinne als jedes Tool in der Toolkette für Monitoring und Reaktion auf Vorfälle definiert werden kann, das künstliche Intelligenz und/oder maschinelles Lernen (KI/ML) verwendet.

Basierend auf dieser Definition hatte Nancy einige Vorschläge, was bei der Bewertung von AIOps-Tools und -Lösungen zu beachten ist.

Nutzen Sie die möglichen Vorteile von KI/ML, ohne sich dabei vom AIOps-Marketing ablenken zu lassen

Suchen Sie Lösungen, die die Einführung von KI/ML zur Reduzierung der Alarmflut vereinfachen, z. B. durch Tools, die:

  • über vortrainierte Lernmodule verfügen, so dass Sie innerhalb von Tagen und nicht Monaten anfangen können
  • mit internen, Cloud-basierten und hybriden Infrastrukturen arbeiten können
  • Datenformate aus mehreren Datenquellen standardisieren können, um unterschiedliche Monitoring-Tools zu integrieren
  • maschinelles Lernen zusätzlich zu regelbasierten Ansätzen nutzen und so brauchbare Ergebnisse garantieren

Lernen Sie aus der Vergangenheit

Bewerten Sie Tools und Lösungen, mit denen Daten aus vergangenen Handlungen von Incident Respondern wirksam eingesetzt werden können, um zukünftige Handlungen und Reaktionen besser zu gestalten. Sie sollten außerdem Lösungen in Betracht ziehen, die Autokorrektur ermöglichen, um Vorfälle schneller zu beheben.

Es geht nicht nur um die Technik: Menschen und Abläufe sind absolut ausschlaggebend!

Mit zunehmender Komplexität aufgrund der Nutzung von Microservices und DevOps-Verfahren wird es immer schwieriger, dass die richtige Person zum richtigen Zeitpunkt reagiert; eine Lösung, die zum richtigen Zeitpunkt eine Warnmeldung an die richtige Person schickt ist also unverzichtbar.

Denken Sie in großen Maßstäben, um gute Argumente zu finden

Eine Reduzierung der mittleren Quittierzeit (mean-time-to-acknowledge - MTTR) sowie der mittleren Zeit zur Problemlösung (mean-time-to-resolve - MTTR) bei Vorfällen sind hervorragende Ziele für ein IT-Operationsteam – aber was bedeutet das für das Unternehmen? Wenn man aus betrieblichen Gründen für eine AIOps-Lösung argumentiert, einschließlich der Reaktion auf Vorfälle, sollten auch die verbesserten Geschäftsergebnisse ein Thema sein. Zu den verbesserten Ergebnissen zählen unter anderem die Vermeidung oder Reduzierung von Stillstandszeiten, was zu verbesserten Kundenerfahrungen und Einnahmensicherung führt, zusätzlich zu gesteigerter Produktivität von Entwicklern und Betreibern, die jetzt weniger Zeit auf ungeplante Arbeiten aufwenden müssen.

Einheitliche Daten und Prozesse können die Reaktionen auf Vorfälle verbessern

Durch die Zentralisierung von Alarmdaten von Monitoring-Tools auf einer einzelnen Plattform können verteilte Teams besser eine effektive Reaktion auf Vorfälle organisieren und gemeinschaftlich vorgehen, was zu eine Steigerung sowohl der Stimmung als auch der Produktivität der Mitarbeiter führt.

Sehen Sie Automatisierung als etwas Positives

Bei Automatisierung geht es nicht nur um Behebung – woran sich viele erst gewöhnen müssen – sondern sie übernimmt auch die harte Arbeit bei den Reaktionen auf Vorfälle, indem bestimmte Aufgaben in diesem Prozess automatisiert werden. Diese Aufgaben sind unter anderem das Schicken einer Meldung zum richtigen Zeitpunkt an die richtige Person, das Einrichten einer Konferenzschaltung für das Reaktionsteam, Zugang zum richtigen Runbook, das Verschicken von Statusaktualisierungen an Projektbeteiligte sowie die Erstellung von Vorfall-Abschlussberichten.

PagerDuty stimmt mit Nancys Schlussfolgerung in diesem Paper überein, dass lediglich das Kaufen der richtigen AIOps-Tools keine Wunderwaffe ist. Um diese Tools optimal zu nutzen, müssen sie in eine umfassende Strategie für Event-Management und Reaktion auf Vorfälle integriert werden.

PagerDuty ist der Überzeugung und setzt dies auch um, dass im Rahmen einer solchen Strategie auch bewertet werden sollte, wie die Teams Ihres Unternehmens für ihre Serviceleistungen verantwortlich sind und diese durchführen. Dies ist besonders wichtig, wenn neue Technologien wie AIOps in Erwägung gezogen werden, um zu verstehen, wie sich diese in Ihre bestehenden Betriebsmodelle einfügen. Aufgrund zunehmender Migration von Unternehmen in die Cloud - für bessere Skalierung und Agilität - unterstützen technische Organisationen immer mehr Anwendungen und Microservices in zunehmend hybridisierten Umgebungen.

Diese gesteigerte Komplexität der Technik bedeutet auch Änderungen für die Menschen und deren entsprechenden Abläufe. Teams arbeiten immer mehr dezentralisiert und häufig stellen Geschäftszweige ihre eigenen Technik-Teams, jedes mit seiner eigenen Kultur, Geschwindigkeit und Toolkette. IT-Führungskräfte, die AIOps-Lösungen kaufen wollen, sollten dafür sorgen, dass sowohl zentralisierte als auch dezentralisierte Teams (bei letzteren besitzen und betreuen die Entwickler individuell ihre Codes in der Produktion) berücksichtigt werden und so eine korrekte Rendite durch Nutzung gewährleistet wird.

Laden Sie diesen Bericht von 451 Research herunter und lesen Sie die Erkenntnisse von Nancy Gohring und wie PagerDuty AIOps Ihnen und Ihrem Unternehmen beim Umstieg auf DevOps und Komplett-Service-Verantwortung helfen kann.