Lewati ke konten utama

Observability Ops

Halaman ini jadi baseline monitoring operasional untuk API, queue, dan proses bisnis inti.

SLO ringkas (starter)

DomainTargetAlert threshold
API availability>= 99.5%< 99.0% rolling 1 jam
P95 latency endpoint kritikal< 800 ms> 1200 ms 10 menit
Error rate 5xx< 1%> 3% 5 menit
Queue failure rate< 0.5%> 2% 10 menit

Signal yang wajib ada

LayerMetric/SignalTujuan
HTTP/APIrequest count, latency p50/p95, 4xx/5xxdeteksi degradasi API
Authlogin fail rate, unauthorized spikedeteksi auth misconfig/abuse
Queue/Jobpending jobs, failed jobs, retry countjaga pipeline async tetap sehat
DBslow query count, connection saturationcegah bottleneck DB
Businessreservation created/completed, coupon claimed, active membersvalidasi health bisnis, bukan cuma teknis

Runbook triage 15 menit pertama

MenitFokusOutput
0–5konfirmasi alert valid (bukan false positive)severity + area terdampak
5–10isolasi lapisan rusak (API/DB/Queue/integrasi)hipotesis utama
10–15mitigasi cepat (rollback, throttle, restart worker)stabilisasi awal

Query/check operasional yang sering dipakai

# build docs health
cd docs-site/docusaurus && npm run build

# cek endpoint health basic
curl -i "http://localhost/ping"

# contoh cek log aplikasi (sesuaikan path)
tail -n 200 storage/logs/laravel.log

Alert routing

SeverityRespon targetTindakan awal
Sev-1 (down total)≤ 5 menitannounce incident, mitigasi instan
Sev-2 (degradasi berat)≤ 15 menittriage + workaround
Sev-3 (minor/isolated)≤ 60 menitbacklog fix terencana

Marker insiden yang harus dicatat

  • trace_id contoh request gagal/sukses.
  • rentang waktu kejadian (start-end).
  • endpoint/fitur terdampak.
  • perubahan terakhir sebelum insiden (release/migration/config).
  • keputusan mitigasi + hasilnya.

Lihat juga: