Pentru ca nu am mai vrut sa poluez thread-ul anterior, ce cultura de oncall aveti?
Eu am facut oncall vreo 2 ani in perioada 2018-2020. Nu era neaparat ceva big deal, dar eram sunat de catre echipa de front-office cand graficele de monitorizare nu se mai actualizau, nu mai venea punct la intervalul urmator. Problemele erau diverse, dar rezolvarea era relativa simpla.
- Echipamentul nu mai genera fisirele cu date pentru grafice
- Probleme de conectivitate
- Schimbari care modificau fisierele si nu eram anuntati din timp
Cand se intampla un incident, il discutam cu colegii a doua zi si vedeam cum putem sa ne facem viata mai usoara. Fie prin automatizare, fie prin o verificare pe care o puteau face si alte echipe. Dar mai greu cu verificatul pentru ca se mai arunca pisica in curtea vecina
Eu am trecut intre timp pe shadow (avand in vedere ca sunt L3 si in echipa de dezvoltare) si viata s-a simplificat. In acesti ani, am automatizat si imbunatatit detectia cat s-a putut de mult, proceduri in Confluence, iar rezultatele se vad. Coelgii care sigura on-call ul sunt sunati rar.
In timpul incidentelor am vazut oameni care au stiut sa isi pastreze calmul, oameni evervati ca au fost treziti la 2 dimineata.
Un tip pe care l-am aplicat a fost ca eu si cineva din partea cealalta sa avem un call separat si sa dam update-uri in conferinta cu incidentul.
Din anumite puncte de vedere, oncall-ul pe care l-am facut mi-a testat skill-urile intr-un moment fast paced. In altele, pain in the ass.
Recordul a fost sa fiu suntat de vreo 3 ori pe noapte.
Ca si materiale suplimentare de studiu
- Prezentarea mea
- Serhat Can - Building a healthy on-call culture - YouTube