Avem vreun SRE aici pe forum?

SRE (Site Reliability Engineering) este o pozitia relativ noua (din 2003, de fapt). Astazi este vazut ca o ramura derivata din DevOps.

Primii care au introdus pe piata conceptul de SRE au fost cei de la Google, cand in 2003, un tip de acolo, a creat o echipa de SRE pentru a se focusa strict pe production reliability.

Eu am migrat de 1-2 ani in pozitia asta si sincer ma simt ft bine. Mi se pare un career path ft interesant. Eram pasionat de System Design, insa nu stiam in ce directie sa ma duc.

Cand eram mai la inceput, etalonul pentru mine era Software Architect, dar mi-am dat seama ca de fapt nu este cine stie ce in ziua de azi acest rol, cel putin nu din punct de vedere tehnic. E mai mult, o pozitie de business (Software Architect ~= Solutions Architect ~+ Sales skills), management…

Mai este si Principal Software Engineer in ziua de azi, care mi se pare tot un etalon, un nivel de guru pe partea tehnica, dar spre desebire de SRE (care e focusat strict pe production environment si pe reliability) acesta e implicat in dezvoltarea de features, product development, ceea ce pe mine nu ma mai pasioneaza asa mult. Vreau sa am cat mai putin de-a face cu domain-ul, cu business logic-ul aplicatiei. Vreau sa ma focusez strict pe tehnic, cat se poate.


Acum vreo jumate de an in urma am citit cartea asta:

https://sre.google/sre-book/table-of-contents/

Si mi-am dat seama ca ma pasioneaza ft tare domeniul asta.


Pe scurt, SRE-ul e cel care participa la On-Call duty. Cel care se scoala la 3 noapte, fiind alertat, ca este un incident in production si trebuie rezolvat.

SRE, la baza, spune ca trebuie sa stii programare, desi in ziua de azi sunt si SREs care au migrat dinspre SysAdmin si nu stiu programare, doar scripting.


Pomeneam intr-un alt topic aici pe forum ca am inceput sa frecventez acest subreddit: https://www.reddit.com/r/sre/ , pe care vi-l recomand si voua.

De asemeanea, puteti citi acest post despre 2 incidente pe care le-am avut recent, ca sa intelegi mai bine care este fisa postului, pentru cine e interesat, evident.


Asadar revin la intrebarea initiala: avem vreun SRE aici pe forum?

2 Likes

Cu mentiunea ca si dev ulmpoate face oncall in functie de proiect, agreement-uri, prioritate

La fostul loc de munca si la actualul fac oncall

Also am colegi care sunt sre

1 Like

Da, e adevarat.

In companiile mai mari sunt cel putin 2 persoane On-call pe acelasi shift.

Un reprezentant din SRE, un reprezentat din product engineering (software dev)

Asa este acum la mine
Ops si dev

O sa raspund din experienta mea de la Google, unde am fost SRE in echipa de GMail.

La Google Principal era un “modifier”, gen “Senior”. Aveai Software Engineer L3 (straight out of college), SWE L4, Senior SWE (L5), si dupaia parca era Principal Software Engineer, Senior Principal, Distinguished SWE, Senior Distinguished, si dupaia Jeff Dean. La fel aveai si pe ramura SRE: SRE L3, L4, Senior, si apoi Principal SRE si tot asa.

E business logic sa decizi daca latenta e mai important sau throughput? E business logic daca sa decizi ca eventual consistency e ok sau daca trebuie sa poti citi orice write imediat? Deciziile astea depind de aplicatie si la ce se foloseste. Nu poti separa cele doua. La Google, la nivelele L3-L4, da, puteai sa te ascunzi de “business”, dar mai sus trebuia sa te implici tot mai mult si pe partea “soft”.

Not as an SRE (la Google). Aveam doua shifturi, in timezoneuri diferite, ca sa fii oncall doar ~in timpul zilei.

Am fost oncall 24/7 doar ca SWE (si m-o trezit alerte ca team lead-ul facea prostii in prod la 2 noaptea).

Ca SRE, la Google, you’re mandate was to automate yourself out of a job. Trebuia sa stii sa programezi destul de bine. SRE nu e totuna cu SysAdmin. Da, erau doua branchuri de SRE, care aveau accente diferite, dar toti trebuia sa stie sa codeze.

4 Likes

Daca ai fost SRE la Google, ai tot respectul meu. Restul nici nu mai conteaza :smiley:

Momentan ala e nivelul maxim pentru mine, la care pot/vreau sa ajung dpdv tehnic.


EDIT: Uitandu-ma la experienta ta. De ce ai vrut sa pleci de la Google? De ce ai vrut sa te intorci in Oradea?

Bun. Astea ce zici tu e joaca de copii (apropo, cu 2 de “i”, nu 1, nu 3). Astea tin de SLA (Service Level Agreement) care da, tine de fisa postului a unui SRE.

Eu la ce ma refeream e la faptul (un exemplu de pe proiectul actual), sa implementezi un feature/task de MarketPlace Fee, practic trebuie sa intelegi tot departamentul de finance ca sa poti implementa acest feature, from a software point of view.

Do I need/want this?? Definitely no. I’m already bored of these kind of things.


Not as an SRE (la Google). Aveam doua shifturi, in timezoneuri diferite, ca sa fii oncall doar ~in timpul zilei.

Da, ce spui tu, se cheama Follow-the-sun model/shifts pentru SRE.


Ca SRE, la Google, you’re mandate was to automate yourself out of a job

That’s brilliant saying!

De ce am plecat de la Google? S-au aliniat mai multe stele :slight_smile:

Google a crescut mult in cei 4 ani cat am fost acolo (40k angajati → 80k) si se simtea diferenta, si in chestii mici de zi cu zi, cat si in chestii de strategie/big company complexity. Gen un proiect care in afara Google era gata in 2 luni max, acolo a durat 9 luni sa ajungem in private beta, din cauza la aprobari de la legal, security, privacy, etc.

Apoi m-am saturat de long distance relationship. Sotia mea pe atunci inca facea facultatea de farmacie, mai avea vreo 3 ani, ar fi fost complicat pentru ea sa se transfere in Elvetia si sa continue studiile.

Si am gasit un startup fain in Cluj si am zis ca incerc #startuplife.

Asa ca mi-am asteptat bonusul pe 2017 si am plecat, si nu pot sa zic ca regret.

4 Likes

suna de vis! :smiley:

2 Likes

Ca sa fie un rol cat mai tehnic, trebuie si produsul firmei sa depinda cat mai mult de tehnica.

Daca vorbim de exemplu de un produs mai mare, ce trebuie sa inghita zilnic 1 TB de date noi, prefer sa fiu arhitectul ce decide unde se duc acele date si cum le folosim in mod optim, decat SRE sculat la 3 dimineata ca a picat un HDD.

Da. Dar sincer pe mine ma pasioneaza treaba asta. Anume prin importanta si impactul pe care-l am asupra business-ului, a produsului.

Nu mi s-a intamplat asta pana acum, sa ma trezesc la 3AM (nici nu sunt de mult timp in pozitia asta), dar ce mi s-a intamplat in schimb, a fost sa astept pana la 1 noaptea ca sa fac o migrare la un RabbitMQ cluster in production. Pentru ca era low traffic, la acea ora.

Cred ca e job de oameni tineri, eu am ajuns la varsta la care apreciez un somn bun :smiley:
i like the job excitement, dar numai la job.

6 Likes

Acum cativa ani am fost sunat de creo 3 ori noaptea ca nu erau unii in stare sa nu citeasca un grafic si altii erau lenesi sa dea un ls -l pe server la ei. :woozy_face:

3 Likes

Unde am mai lucrat inainte SRE-ul era si un gateway intre infrastructura, datele clientilor si programatori.

Doar SRE aveau acces la clusterele de k8s si ei faceau mereu release-urile. Iti trebuia un SRE ca sa faci un release sau sa obtii loguri de pe un environment de productie.

2 Likes