Ile naprawdę kosztuje uruchomiony agent AI? Tokeny, infrastruktura, utrzymanie
Wdrożenie to jedno. Miesięczny koszt działającego agenta zależy od użycia modeli, kontekstu, narzędzi, hostingu, logów, monitoringu, pracy człowieka i wymogów bezpieczeństwa.
Większość rozmów o agentach AI zaczyna się od ceny wdrożenia. To naturalne, ale dla działającego procesu ważniejsze jest drugie pytanie: ile kosztuje miesiąc pracy agenta po uruchomieniu?
Nie ma jednej uczciwej odpowiedzi typu "agent kosztuje 299 USD miesięcznie". Taki numer zwykle miesza subskrypcję narzędzia, koszt modelu, hosting, logi, monitoring i pracę ludzi. W praktyce miesięczny rachunek zależy od tego, ile spraw agent obsługuje, ile kontekstu czyta, jakiego modelu używa, ile razy woła narzędzia, co zapisuje w logach i jak często człowiek musi sprawdzić wynik.
Ten tekst jest o koszcie operacyjnym, nie o cenie budowy. Zakładamy, że agent już działa: odbiera zgłoszenia, klasyfikuje maile, przygotowuje odpowiedzi, sprawdza dokumenty, aktualizuje CRM albo uruchamia workflow.
Najpierw rozdziel pięć rachunków
1. Model i API
To koszt wywołań modelu: tokeny wejściowe, tokeny wyjściowe, tokeny cache, czasem tokeny "reasoning", obraz, audio, embeddings, reranking albo narzędzia serwerowe. Cenniki dostawców są zwykle podawane za milion tokenów, osobno dla wejścia i wyjścia. Wyjście bywa wielokrotnie droższe niż wejście, więc agent piszący długie odpowiedzi kosztuje inaczej niż agent, który tylko klasyfikuje i zwraca JSON.
Ważne: subskrypcja czatu dla pracownika nie jest tym samym co produkcyjne API. OpenAI wprost rozdziela rozliczenie API od planów ChatGPT, a analogiczna zasada działa u innych dostawców: jeśli aplikacja woła model w tle, trzeba liczyć zużycie API albo koszt platformy, przez którą ten model jest udostępniony.
2. Orkiestracja i narzędzia
Agent rzadko wykonuje jedno wywołanie modelu. Często robi kilka kroków: pobiera kontekst, klasyfikuje sprawę, woła CRM, sprawdza bazę wiedzy, generuje odpowiedź, prosi człowieka o akceptację i dopiero potem wysyła wynik. Każdy krok może oznaczać kolejne wywołanie modelu, dodatkowe tokeny z opisem narzędzi albo osobny koszt platformy.
Jeżeli używasz warstwy typu LangGraph/LangSmith Deployment, dochodzi rozliczenie za uruchomienia i uptime wdrożenia. LangChain dokumentuje też jasno, że koszty modeli w takich wdrożeniach są rozliczane osobno przez dostawcę modelu. Jeżeli używasz n8n, koszt nie polega na tym, że "agent jest darmowy", tylko na hostingu, workflow, kolejce, bazie, limicie planu albo pracy przy utrzymaniu. Dokumentacja n8n pokazuje typowe ścieżki self-hostingu oraz tryb kolejkowy z Redisem, czyli realną infrastrukturę, którą trzeba utrzymać.
3. Hosting, dane i integracje
Do prostego agenta może wystarczyć mała usługa backendowa i baza. Do procesu produkcyjnego zwykle dochodzą:
- serwer aplikacji, funkcje serverless albo kontenery
- baza danych na stan spraw, decyzje, retry i historię
- magazyn plików lub wektorowa baza wiedzy
- kolejka zadań, gdy sprawy mogą trwać długo albo mają retry
- integracje z pocztą, CRM, helpdeskiem, dokumentami, ERP albo komunikatorami
- środowisko testowe, jeśli agent dotyka danych klienta lub operacji biznesowych
Te koszty są mniej zmienne niż model, ale nie są zerowe. Są też bardziej wrażliwe na wymagania bezpieczeństwa: backup, region danych, szyfrowanie, prywatna sieć, monitoring dostępu i rozdzielenie środowisk.
4. Logi, monitoring i ewaluacje
Agent bez logów jest tani tylko do pierwszej reklamacji. W produkcji trzeba wiedzieć:
- jaka sprawa weszła do systemu
- jaki kontekst został użyty
- jaki model i wersja promptu zadziałały
- jakie narzędzia zostały wywołane
- czy człowiek poprawił odpowiedź
- ile kosztowała dana sprawa
- gdzie agent odmówił, zwrócił błąd albo eskalował
Logi nie mogą jednak oznaczać kopiowania całych rozmów i danych osobowych "na wszelki wypadek". Debug trace też może być daną osobową. Dlatego koszt monitoringu obejmuje nie tylko narzędzie, ale też projekt retencji, maskowania danych, kontroli dostępu i eksportu do audytu.
5. Ludzie: review, utrzymanie, decyzje
Jeżeli agent pracuje w realnym biznesie, ktoś musi odpowiadać za jego zachowanie. Human review nie jest porażką automatyzacji. To koszt kontroli jakości i ryzyka.
Najczęstsze pozycje:
- sprawdzanie odpowiedzi przed wysyłką w tematach ryzykownych
- obsługa wyjątków i eskalacji
- analiza błędów i reklamacji
- aktualizacje bazy wiedzy
- poprawki promptów i reguł routingu
- testy regresji po zmianie modelu, cennika albo procesu
- okresowe raportowanie kosztu na sprawę
Jeżeli tego nie liczysz, budżet wygląda dobrze tylko w arkuszu. W firmie i tak ktoś będzie robił tę pracę: support, operacje, prawnik, właściciel procesu albo inżynier.
Jak liczyć koszt modelu
koszt modelu =
tokeny wejściowe / 1 000 000 × cena wejścia
+ tokeny wyjściowe / 1 000 000 × cena wyjścia
+ koszt cache write/cache read
+ koszt narzędzi, obrazów, audio, wyszukiwania albo kodu
To trzeba liczyć per sprawa, nie per wiadomość. Jedna sprawa klienta może zawierać trzy wiadomości, dwa pobrania dokumentów, klasyfikację, generowanie szkicu i kontrolę zgodności. Wtedy "jedno zgłoszenie" nie jest jednym requestem.
Najprostszy arkusz kosztowy powinien mieć co najmniej takie kolumny:
| Pole | Dlaczego jest potrzebne |
|---|---|
| Liczba spraw miesięcznie | Nie licz sesji demo, tylko realny wolumen procesu |
| Średnie tokeny wejściowe | Instrukcja, historia, dokumenty, opisy narzędzi, dane z CRM |
| Średnie tokeny wyjściowe | Odpowiedź, JSON, uzasadnienie, plan działania |
| Liczba kroków modelu na sprawę | Agent jednoetapowy i agent wieloetapowy mają inne koszty |
| Udział cache hit | Stały kontekst może być tańszy, ale tylko przy powtarzalnych prefiksach |
| Narzędzia dodatkowe | Web search, code execution, audio, embeddings, OCR, zewnętrzne API |
| Eskalacje do człowieka | Review zwiększa koszt pracy, ale zmniejsza ryzyko |
Przykład orientacyjny, nie oferta
Załóżmy proces mailowego triage'u:
- 10 000 spraw miesięcznie
- 5 000 tokenów wejściowych na sprawę
- 500 tokenów wyjściowych na sprawę
- jedno główne wywołanie modelu
- brak płatnego web search i brak audio
- model z publicznej klasy cenowej, w której wejście kosztuje od ułamków dolara do kilku dolarów za 1 mln tokenów, a wyjście od pojedynczych do kilkunastu dolarów za 1 mln tokenów
W takim wariancie sam model może wyjść od kilkunastu do kilkuset USD miesięcznie. Jeżeli jednak ta sama sprawa ma 30 000 tokenów kontekstu, dwa lub trzy kroki modelu, długą odpowiedź i płatne narzędzia, koszt może rosnąć do setek albo tysięcy USD. To nie jest sprzeczność. To różne architektury.
Dlatego w rozmowie biznesowej sensowniejsze są trzy liczby:
| Metryka | Co mówi |
|---|---|
| Cost per handled case | Ile kosztuje sprawa zamknięta bez człowieka |
| Cost per escalated case | Ile kosztuje sprawa, którą agent przygotował dla człowieka |
| Cost per failed/unsafe case | Ile kosztują błędy, poprawki, review i ryzyko |
Jeśli agent oszczędza 8 minut pracy człowieka, ale kosztuje więcej niż te 8 minut razem z review i obsługą wyjątków, automatyzacja nie ma ekonomii. Jeżeli oszczędza 8 minut w procesie o dużym wolumenie i stabilnej jakości, może mieć sens nawet przy droższym modelu.
Cache pomaga, ale nie jest gwarancją
Prompt caching bywa dużą dźwignią, ale tylko wtedy, gdy agent ma powtarzalny początek promptu: stałą instrukcję, stabilny opis narzędzi, ten sam dokument polityki albo wspólny fragment kontekstu. OpenAI opisuje cache dla długich, powtarzalnych prefiksów, a Anthropic rozdziela w cenniku cache write i cache hit. To są realne mechanizmy, nie uniwersalny rabat.
Cache nie rozwiązuje trzech problemów:
- nie obniża kosztu wyjścia, jeśli agent pisze długie odpowiedzi
- nie pomoże przy ciągle zmiennym kontekście
- nie zastąpi mierzenia cache hit rate w logach użycia
Podobnie Batch API może obniżyć koszt zadań asynchronicznych, ale nie nadaje się do wszystkiego. Jeżeli klient czeka na odpowiedź w czacie, 24-godzinne okno przetwarzania nie jest tą samą usługą.
Co zwykle psuje koszt
- Wysyłanie całej historii przy każdym kroku. Historia rozmowy, wszystkie dokumenty i pełny opis narzędzi potrafią zdominować koszt.
- Jeden najmocniejszy model do wszystkiego. Klasyfikacja, ekstrakcja i routing często mogą iść przez tańszy model niż finalne rozumowanie.
- Brak limitów długości odpowiedzi. Model, który "ładnie wyjaśnia", może produkować kosztowne uzasadnienia tam, gdzie wystarczy etykieta i krótki powód.
- Narzędzia bez budżetu. Web search, code execution, OCR, audio, zewnętrzne API i pobieranie dużych plików powinny mieć limity.
- Brak deduplikacji. Ten sam mail, ticket albo dokument przetwarzany kilka razy jest czystą stratą.
- Logowanie wszystkiego. Pełne logi są wygodne dla debugowania, ale mogą podnosić koszt przechowywania i ryzyko RODO.
- Brak właściciela procesu. Model się zmienia, dane się starzeją, integracje zawodzą. Bez utrzymania koszt błędów rośnie szybciej niż rachunek za API.
RODO i bezpieczeństwo też są kosztem
Jeżeli agent przetwarza dane klientów, pacjentów, pracowników, kandydatów albo kontrahentów, koszt nie kończy się na tokenach. Trzeba odpowiedzieć na pytania:
- kto jest administratorem danych, a kto procesorem
- czy dostawca modelu albo platformy jest podprocesorem
- gdzie przetwarzane są dane i czy potrzebne są dodatkowe warunki transferu
- czy dane z promptów i logów mogą być używane do trenowania albo ulepszania usług
- jaka jest retencja rozmów, trace'ów i plików
- kto ma dostęp do logów i jak ten dostęp jest audytowany
- jak działa usuwanie danych i obsługa żądań osób, których dane dotyczą
- czy proces wymaga DPIA, bo może powodować wysokie ryzyko dla osób
Komisja Europejska opisuje rozróżnienie administratora i procesora, a EDPB przypomina o odpowiednich środkach technicznych i organizacyjnych oraz ocenie ryzyka. W praktyce oznacza to pracę: umowy powierzenia, konfigurację retencji, redakcję danych, ograniczenia dostępu, dokumentację i testy. To nie zawsze jest największy koszt, ale pominięcie go potrafi być droższe niż sam rachunek za model.
Kto powinien płacić rachunek za model
Najczytelniejszy model dla firmy jest prosty: produkcyjne zużycie modelu idzie przez konto API klienta albo przez jawnie opisany pass-through. Wtedy widać realne usage, limity, alerty i faktury. Jeśli dostawca wdrożenia ukrywa API w ryczałcie, zapytaj:
- jaki model jest używany i czy może się zmienić bez zgody
- czy koszt jest limitowany per miesiąc
- co dzieje się po przekroczeniu limitu
- czy dane trafiają przez dodatkowy proxy
- czy można zobaczyć token usage per klient, sprawa albo workflow
- czy istnieje marża na inferencji
Budżety i alerty warto ustawić od pierwszego dnia. Trzeba jednak pamiętać, że budżet u dostawcy API może być tylko alertem albo miękkim progiem, a nie twardym bezpiecznikiem zatrzymującym użycie w sekundę po przekroczeniu kwoty. W krytycznym procesie potrzebny jest też limit po stronie aplikacji: liczba spraw, koszt per tenant, koszt per dzień, maksymalny kontekst i fallback po przekroczeniu budżetu.
Co mierzyć po uruchomieniu
Minimum raportu miesięcznego:
- liczba spraw wejściowych
- liczba spraw obsłużonych automatycznie
- liczba eskalacji do człowieka
- średni i percentylowy koszt modelu na sprawę
- input tokens, output tokens, cached tokens
- liczba wywołań narzędzi
- błędy integracji i retry
- czas odpowiedzi
- poprawki człowieka i powody odrzucenia
- incydenty bezpieczeństwa lub naruszenia zasad
Bez tych danych koszt jest opinią. Z tymi danymi można rozmawiać konkretnie: czy zmniejszamy kontekst, zmieniamy model dla jednego kroku, cache'ujemy stały prefiks, skracamy odpowiedzi, czy przenosimy część procesu do reguł bez modelu.
Jak to wygląda u nas
Koszt operacyjny szacujemy w audycie na realnym wolumenie i danych procesu. Nie wyceniamy go hasłem "AI będzie tanie", tylko rozbijamy na model, narzędzia, infrastrukturę, monitoring, review, utrzymanie i wymagania bezpieczeństwa.
Jeżeli po takim liczeniu koszt sprawy jest wyższy niż koszt pracy, którą agent ma odciążyć, uczciwa rekomendacja brzmi: nie budować albo zawęzić zakres. Jeśli ekonomia się broni, dopiero wtedy warto rozmawiać o wdrożeniu.
Masz proces, dla którego chcesz policzyć koszt na sprawę? Umów 30-minutową rozmowę.
Źródła do sprawdzania stawek
Stawki modeli i platform zmieniają się często, więc przed decyzją trzeba sprawdzić aktualne cenniki: