Jest 3:17 w nocy. Telefon dzwoni. PagerDuty. Serwer produkcyjny nie odpowiada. Wstajesz, otwierasz laptopa, logujesz się przez VPN, sprawdzasz logi. 40 minut później znajdujesz problem: dysk się zapełnił logami z jednego mikroserwisu, który wpadł w pętlę retry. Czyścisz logi, restartujesz serwis, wracasz do łóżka. Za 3 godziny musisz wstać do pracy.
Ten scenariusz powtarza się w tysiącach firm co noc. I jest absurdalnie drogi.
On-call: najdroższa rola w DevOps
On-call burnout to realny problem. Badania PagerDuty 2025 pokazują:
- 78% inżynierów on-call zgłasza chroniczne zmęczenie
- 65% alarmy to problemy, które można naprawić automatycznie
- Średni czas reakcji nocą: 15-45 minut (bo człowiek musi się obudzić)
- Koszt jednego incydentu nocnego: 500-5 000 zł (czas inżyniera + utracona produktywność następnego dnia)
Policzmy koszt on-call dla średniej firmy technologicznej w Polsce:
| Element | Koszt miesięczny |
|---|---|
| Dodatek on-call (4 inżynierów rotacyjnie) | 8 000-16 000 zł |
| Nocne interwencje (avg 12/miesiąc) | 6 000-60 000 zł |
| Utracona produktywność dnia następnego | 4 000-8 000 zł |
| Rotacja pracowników (burnout) | trudne do oszacowania |
| Razem | 18 000-84 000 zł/miesiąc |
A teraz wyobraź sobie, że 65-70% tych nocnych alarmów nigdy nie dociera do człowieka, bo agent AI naprawił problem sam.
Co agent AI naprawia automatycznie
Self-healing infrastructure to nie science fiction. To agent AI, który:
1. Monitoruje i reaguje w czasie rzeczywistym
Agent obserwuje metryki systemowe 24/7:
- CPU, RAM, dysk, sieć
- Czasy odpowiedzi aplikacji
- Kolejki wiadomości (RabbitMQ, Kafka)
- Logi aplikacji (wzorce błędów)
- Certyfikaty SSL (wygasanie)
- Health checks endpointów
Kiedy widzi anomalię, nie wysyła alertu do człowieka. Najpierw próbuje naprawić sam.
2. Restartuje usługi inteligentnie
Nie ślepo - inteligentnie. Agent:
- Sprawdza, czy restart rozwiąże problem (np. memory leak - tak, uszkodzona baza danych - nie)
- Wykonuje graceful shutdown (nie kill -9)
- Czeka na drain połączeń
- Weryfikuje, że serwis wrócił poprawnie
- Jeśli restart nie pomógł - eskaluje do człowieka z pełnym kontekstem
3. Czyści dyski i zarządza logami
Zapełniony dysk to przyczyna 23% wszystkich incydentów (dane Datadog 2025). Agent:
- Monitoruje użycie dysku per partycja
- Identyfikuje, co zajmuje miejsce (stare logi, core dumpy, cache)
- Rotuje i kompresuje logi automatycznie
- Usuwa pliki tymczasowe starsze niż X dni
- Przenosi zimne dane do tańszego storage
4. Skaluje zasoby automatycznie
Gdy ruch rośnie (kampania marketingowa, Black Friday, atak DDoS):
- Agent dodaje instancje (horizontal scaling)
- Zwiększa RAM/CPU na istniejących maszynach (vertical scaling)
- Włącza CDN cache dla statycznych zasobów
- Po szczycie - skaluje w dół (oszczędność kosztów)
5. Analizuje logi i znajduje root cause
To jest najcenniejsza umiejętność. Prawdziwy przypadek:
Sytuacja: Serwis API zaczął zwracać 500 błędów po deploymencie. Tradycyjnie: inżynier loguje się, przegląda logi, szuka wzorca, testuje hipotezy. Czas: 30-90 minut.
Z agentem AI: Agent przeanalizował 50 000 linii logów z ostatnich 2 godzin. W 47 sekund znalazł:
1. Deploy zmienił wersję biblioteki HTTP
2. Nowa wersja zmieniła domyślny timeout z 30s na 5s
3. Zewnętrzny serwis odpowiadał w 8-12s
4. Każde zapytanie do tego serwisu teraz failowało
Agent automatycznie:
- Zrobił rollback do poprzedniej wersji
- Opisał root cause w tickecie
- Zasugerował fix (zmiana timeout w konfiguracji nowej wersji)
Inżynier rano przyszedł do pracy, przeczytał ticket i wdrożył prawidłowy fix. Bez nocnego alarmu.
Jak działa self-healing w praktyce
Architektura
Metryki/Logi → Agent AI → Decyzja → Akcja → Weryfikacja
↑ ↓
└────────── Feedback loop ←────────────────┘Agent działa w pętli:
1. Obserwuj - zbieraj metryki i logi
2. Analizuj - porównaj z normą, wykryj anomalie
3. Decyduj - czy mogę naprawić sam? (playbook + reasoning)
4. Działaj - wykonaj naprawę
5. Weryfikuj - czy naprawiłem? Czy nie zrobiłem gorzej?
6. Ucz się - zapisz, co zadziałało, a co nie
Playbooki vs autonomia
Agent nie robi wszystkiego "na czuja". Ma dwa tryby:
Playbooki (predefiniowane reakcje):
- Dysk > 90% → czyść logi starsze niż 7 dni
- Serwis nie odpowiada 3x → restart z grace period
- CPU > 95% przez 5 min → skaluj o 1 instancję
Autonomia (AI reasoning):
- Agent widzi nowy problem, którego nie ma w playbooku
- Analizuje logi, metryki, historię incydentów
- Proponuje rozwiązanie
- Jeśli pewność > 85% i ryzyko niskie → wykonuje
- Jeśli pewność < 85% lub ryzyko wysokie → eskaluje do człowieka z analizą
Guardrails - bo agent nie powinien wszystkiego naprawiać
Ważne ograniczenia, które konfigurujemy:
- Nigdy nie modyfikuj danych w bazie produkcyjnej - restart tak, ALTER TABLE nie
- Maksymalnie 3 automatyczne restarty przed eskalacją
- Nigdy nie skaluj powyżej limitu budżetowego - żeby Black Friday nie kosztował 50 000 zł w chmurze
- Wszystkie akcje logowane - pełen audit trail
- Kill switch - jeden przycisk wyłącza autonomię agenta
Koszty vs oszczędności
Wdrożenie self-healing od Syntalith
| Element | Koszt |
|---|---|
| Konfiguracja agenta + integracja z infrastrukturą | od 18 000 zł |
| Playbooki (10-20 scenariuszy) | w cenie wdrożenia |
| Szkolenie zespołu | w cenie wdrożenia |
| Utrzymanie miesięczne | 1 000-3 000 zł |
ROI
Firma z 12 nocnymi incydentami miesięcznie:
- Agent eliminuje 8 z 12 (65%)
- Oszczędność on-call: ~10 000 zł/miesiąc
- Oszczędność produktywności: ~5 000 zł/miesiąc
- Koszt agenta: ~2 000 zł/miesiąc
- Netto: +13 000 zł/miesiąc
Plus niemierzalne: zespół, który śpi spokojnie, nie szuka nowej pracy.
Kiedy self-healing NIE jest rozwiązaniem
Bądźmy szczerzy:
- Startupów z 2 serwerami - overhead konfiguracji nie ma sensu przy małej skali
- Problemów architektonicznych - jeśli serwis pada codziennie, agent go zrestartuje codziennie. To maskowanie objawów, nie leczenie
- Zero-day security issues - agent nie powinien sam łatać krytycznych podatności
- Migracji baz danych - za duże ryzyko na autonomiczne działanie
Self-healing działa najlepiej jako warstwa automatyzacji znanych problemów + szybka diagnoza nowych.
FAQ
Czy agent może uszkodzić produkcję?
Guardrails i playbooki minimalizują ryzyko. Agent nigdy nie modyfikuje danych, nie usuwa baz, nie zmienia konfiguracji sieciowej bez zatwierdzenia. Wszystkie akcje mają limity i kill switch.
Jaką infrastrukturę obsługujecie?
AWS, GCP, Azure, bare metal, Kubernetes, Docker Compose. Agent integruje się z Prometheus, Grafana, Datadog, ELK Stack.
Ile trwa wdrożenie?
3-6 tygodni. Tydzień na integrację, tydzień na playbooki, 2-4 tygodnie shadow mode (agent analizuje, ale nie działa).
Czy mogę zacząć od samego monitoringu?
Tak. Wielu klientów zaczyna od trybu "observe only" - agent analizuje i raportuje, ale nie podejmuje akcji. Po miesiącu włączamy automatyczne naprawy.
Co dalej?
Jeśli Twój zespół jest zmęczony nocnymi alarmami:
1. Policz incydenty - ile nocnych alarmów miesięcznie? Ile z nich to powtarzalne problemy?
2. Oceń koszt - czas on-call + utracona produktywność + rotacja pracowników
3. Umów demo - pokażemy agenta self-healing na żywej infrastrukturze
Umów rozmowę - demo self-healing infrastructure w 7 dni.
Sprawdź też: Agent AI do code review | Dedykowany Agent AI | Agent AI - ile kosztuje?