15. Monitoring, Logging & Observability¶

15.1 Observability Stack¶

graph TD
  subgraph COLLECT["📡 Data Collection"]
    direction LR
    M["📊 Metrics\nPrometheus + Thanos"] ~~~ L["📝 Logs\nLoki + Fluent Bit"] ~~~ T["🔗 Traces\nJaeger / Tempo"]
  end

  COLLECT --> VIZ["📈 Visualization — Grafana (unified dashboards)"]
  VIZ --> ALERT["🚨 Alerting — Alertmanager → Telegram / Email / PagerDuty"]

Note: Elasticsearch is retained solely for Wazuh SIEM (security event monitoring) and Meilisearch for app-level search. All application and infrastructure logging uses Loki.

15.2 Tool Breakdown¶

Tool	Purpose
Prometheus	Metrics collection (CPU, memory, request rates, SLAs)
Grafana	Unified dashboards for metrics, logs, traces
Loki	Log aggregation for all application and infrastructure logs
Fluent Bit	Log shipping from containers and servers
Jaeger / Tempo	Distributed tracing across microservices
Thanos	Long-term Prometheus storage, multi-cluster
Uptime Kuma	HTTP/TCP/DNS uptime monitoring
Alertmanager	Alert routing to Telegram groups, email, SMS