Internal Documentation internal
TalkIDE internal documentation

Status: Draft — discussion only. Žádné rozhodnutí nebylo přijato. Tento dokument slouží jako podklad pro budoucí rozhodování ve Stopě F. Před zahájením implementace bude vydán ADR-019.

TODO: Přidat Stopu F do roadmap dokumentu, jakmile bude existovat.

1. Vrstvy monitoringu

VrstvaCo monitorujemeNástroj / zdroj
InfraCPU, RAM, disk, pod restarts, NFS healthDO Monitoring + kube-state-metrics
App metricsHTTP req rate, p95 latency, JVM heap, DB pool, SSE connectionsSpring Actuator /actuator/prometheus
LogsStructured JSON logsstdout → log aggregator
ErrorsStack traces, error groupsSentry SDK
AI costAnthropic token spend per session/userAnthropic Usage API
Uptime / syntheticExterní HTTP probe na api.talkide.app, talkide.appBetter Uptime / UptimeRobot

2. Tři varianty stacku

Varianta A — Pure SaaS Free Tier

KomponentaNástrojPoznámka
Infra + App metrics + Logs + DashboardsGrafana Cloud Free10k series, 50 GB logs, 14 dní retention
ErrorsSentry Free5k events/měs
Uptime / syntheticBetter Uptime Free2 monitors, 3min interval

Cost: $0/měs

Pro:

  • Žádný hosting overhead, vše managed
  • Rychlý onboarding, nulová ops zátěž

Proti:

  • Data u 3rd party (GDPR edge cases)
  • Retention limity mohou být nedostatečné po spuštění
  • Vendor lock-in

Varianta B — Self-host kube-prometheus-stack

KomponentaNástrojPoznámka
Metrics + Dashboards + Alertingkube-prometheus-stack (Helm)Prometheus + Grafana + Alertmanager + node-exporter
LogsLoki (Helm)Logback → Loki push agent
ErrorsSentry Free SaaSSelf-host Sentry je příliš heavy (2+ GB RAM)
Uptime / syntheticBetter Uptime Free2 monitors

Cost: +$15–24/měs (větší K8s node nebo extra node pro observability stack)

Pro:

  • Data v naší VPC, plná kontrola
  • Žádný retention limit
  • Prometheus + Grafana průmyslový standard

Proti:

  • My managujeme (upgrade, backup Prometheus dat)
  • Větší K8s resource footprint
  • Komplexnější setup

Varianta C — Hybrid (orientačně vhodné pro alpha)

KomponentaNástrojCost
Infra monitoringDO built-in MonitoringFREE (součást DO)
App metrics + LogsGrafana Cloud Free (push agent v clusteru)FREE / $19/měs Pro
ErrorsSentry Free (BE + FE SDK)FREE
Uptime / syntheticBetter Uptime Free (2 monitors)FREE

Cost: $0/měs alpha, ~$19/měs Grafana Cloud Pro po alpha launch

Pro:

  • Minimal ops — žádný self-hosted observability stack
  • DO Monitoring zdarma pokrývá infra vrstvu bez konfigurace
  • Grafana Cloud agent je lightweight (push model, běží jako sidecar nebo DaemonSet)
  • Sentry SDK integrace je minutová záležitost
  • Scaleable — přechod na Pro tier je jediná změna

Proti:

  • Data distribuovaná napříč 3 SaaS službami
  • Při free tier limitu nutný upgrade nebo migrace

3. User-app monitoring specifika

Každý user-app pod generovaný platformou má /actuator/prometheus jako součást template scaffoldu.

Scraping:

  • Centrální Prometheus scrape přes ServiceMonitor s label selector app=user-app
  • Multi-tenancy isolation: každý scrape target dostane label tenant=<slug>, dashboard query filtruje by tenant

User-facing UI (post-MVP) — “App Health” tab v project view:

  • Request rate sparkline (posledních 24h)
  • Error rate %
  • Response time (p95)
  • Pod restarts

Implementace: BE endpoint /api/v1/projects/{slug}/metrics dotazuje Prometheus HTTP API a vrací agregovaná data. FE zobrazí sparkline grafy bez přímého přístupu k Prometheus.


4. Fázování (orientační)

Závazné rozhodnutí teprve ve Stopě F po výběru stacku.

FázeCoKdy (orientačně)
Pre-alphaSentry SDK (BE + FE), basic Actuator endpoint, 2 Better Uptime monitorsPřed public alpha
Alpha launchGrafana Cloud agent + 5–6 BE dashboardů (req rate, p95, JVM heap, DB pool)Před public alpha
Public alphaUser-facing “App Health” UI v project view+1–2 týdny po launch
Post-alphaAI cost tracking dashboard, alert rules, pagingPostupně dle potřeby

5. Otevřené otázky (k rozhodnutí ve Stopě F)

  • Která varianta stacku (A / B / C)?
  • Které vrstvy implementujeme jako první?
  • Self-hosted Grafana vs Grafana Cloud?
  • Logs retention policy (14 dní? 30 dní? neomezeno?)
  • Alert rules a paging — PagerDuty, OpsGenie, nebo email?
  • AI cost dashboard: v admin UI TalkIDE vs. externí Grafana dashboard?
  • Sentry plan — kdy přejít z Free (5k events) na Team?

6. Reference


Poznámka: Tento dokument NENÍ finální rozhodnutí ani závazná specifikace. Slouží jako přehled možností a podklad pro diskuzi. Konkrétní výběr stacku a implementační plán budou formalizovány jako ADR-019 na začátku Stopy F.

Was this page helpful?

Thanks for the feedback.