In ultimii ani am vazut o crestere exponentiala as putea spune pentru data engineering professionals si eram curios cum vedeti voi domeniul.
Ar merita un switch de pe backend daca iti place ideea?
Daca vine o recesiune mai serioasa, credeti ca firmele vor renunta mai usor la data engineering department sau ar fi la acelasi nivel strategic ca si….i dunno….backend/frontend devs?
Nu ma refer neaparat la ML engineers(desi nu ii exclud) ci mai degraba la oamenii care fac data lakes and/or warehouse, data pipelines, MLOps. Cumva, nu cred ca ML engineers/Data Scientists intra in aceeasi oala. Dar sunt happy sa dezbat subiectul.
Bineinteles ca ma intereseaza si partea de salarii. Cum sunt fata de backend/frontend guys/gals…si cum credeti ca vor evolua?
Da, este cu siguranta o optiune de viitor, parerea mea. Mai mult decat multe altele.
Eu, personal, urmaresc sa fac acest switch de pe backend in zona asta. Mi se pare un rol mult mai strategic decat un simplu backend dev. E un rol care e cea in stransa legatura cu resursa cea mai importanta ,de la un nivel incolo - datele. El sunt cele care genereaza banii.
Mi se pare ca salariile sunt mai ridicate si din simplul fapt ca necesita un nivel de expertiza mai ridicat ca la un backend developer. Trebuie sa ai cunostinta de arhitectura, de DevOps, de baze date, de distributed systems. Adica trebuie sa fii un inginer complet.
mie mi-a placut mai mult javascript, cand faceam parte dintr-o echipa de big data :))) daca ma uit la salarii… hm, sunt 20 30 poate 40% peste backend/frontend/full-stack, nu prea inteleg de ce, dar trendul
scripturile de migrat date (dataframes in Scala Spark), cel putin mie, mi-au parut ca seamana foarte mult cu Entity Framework din NET. toolurile folosite si arhitectura sunt mai importante decat dezvoltarea propriuzisa aici cred
Sigur va fi necesar data engineering, dar mie mi se pare un pic boring.
Si de acord, ML engineers fac altceva. Data scientist e un catch-all term, care depinde de la firma la firma ce inseamna, in unele locuri face de toate, in alte locuri e mai mult un rol cu conexiune puternica la business.
Eu am intrat de putina vreme in zona asta dar nu complet ci printre altele, adica momentan nu ma plateste nimeni suplimentar pentru asta, pentru ca acum construim lucrurile.
Idea e ca data engineering in sine valoreaza in contextul in care organizatia are si alte echipe de data science, data analysis, AI/ML, DevOps, etc… care sa completeze ce faci tu. Data engineering cel putin din ce fac eu nu este despre baze de date mari ci mai mult despre date distribuite, date colectate din surse si dispozitive diverse, sincronizate in timp, agregate, trecute poate prin blockchain, constructia de diverse fluxuri de date la cerere, fluxuri de date in timp real, APIuri si conectori peste ele, totul in clouduri serioase, etc… Practic aici ai multa munca de arhitectura dar si sa zicem backend like (microservicii, Go/Python in cazul meu). Peste asta vin cei care analizeaza datele si aplica diversi algoritmi de prelucrare. Una peste alta munca si provocarile cel putin in cazul meu sunt faine.
Totusi, data engineering functioneaza la scara mare si mai ales in organizatii cu deschidere spre asa ceva, pentru ca sunt costuri, iar asta probabil reduce si numarul de oportunitati. Pe de alta parte faptul ca aici ai o flexibilitate mare in ceea ce priveste tehnologiile face ca eventualele schimbari de job sa te arunce in tehnologii complet diferite ceea ce poate fi un inconvenient la un moment dat.
Ca strategie pe termen lung insa mi se pare o investitie buna pentru ca desi nu o sa fie poate aceeasi paritate la data engineers cu cei din echipele de analiza a datelor sau backend probabil poti fi un om cheie in generarea datelor ceea ce duce si la un alt nivel salarial.
E o optiune de viitor, doar ca la nivel international domeniul incepe sa se imparta in doua:
sisteme mai complexe - gen infrastructuri uriase, cu procese bazate pe streaming in loc de batch data si cu sisteme distribuite gestionate mai granular - data engineering pur
sisteme mai simple, managed, multe sub egida “modern data stack” care pot fi gestionate si de un nou rol aparut ca o combinatie dintre un software engineer si un data analyst - un analyst care foloseste best practices de software dev(de ex source control, ci/cd), si lucreaza cu SQL/Python, poate face si data modelling, si poate in principiu cu ajutorul serviciilor managed pentru data warehouses, procese ELT/ETL/reverse ETL si instrumente de vizualizare poate crea la randul lui intregi pipeline-uri de date de la un capat la altul.
De la o companie la alta variaza foarte mult ce ai de facut, iar rolurile de data engineer/data scientist / data analyst uneori se suprapun foarte mult, si trebuie sa le faci pe toate sau un mix din toate, alteori sunt separate. O deschidere majora e ca daca iti pui la punct engleza si comunicarea in general, scris si vorbit, oportunitatile internationale pe zona asta sunt multe si cu salarii ok.
Ca sa continui cu exemple practice pe acest split, daca vrei DE pur, invata Kafka/ Databricks/ PySpark, daca vrei analytics engineering invata dbt/snowflake/bigquery/viz tools. Asta pe langa Python, SQL, si tot ce tine de explorare de date/data mining/analiza de date, care-s comune pentru ambele. Si ajuta in ambele si experienta de data science, datorita suprapunerii de roluri/oportunitatilor de a completa ceea ce faci ca main tasks cu lucruri mai avansate.
Iau ca reper NLP.
E un topic vast. Parte programare, parte analiză sintactică a textului.
Până recent nu era posibil să se folosească programarea pentru analiză sintactică, dar a devenit ceva foarte accesibil.
Eu spun că data engineering este o diversificare a forței de muncă.
În prezent cererea este mare. Cine intră primii pe piața asta bineînțeles că au un avantaj, plus posibilitatea mai mare de avansare pe scară ierarhică.
Schimbarea profesiei de la full stack dev la data engineer e oarecum ușoară. Ar putea fi si un plus la CV.
Partea dificilă este selectarea unei nișe in data engineering. Analiză sintactică, de exemplu, este accesibilă. Dar daca vorbim de fizică, chimie sau alte științe exacte e mai greu.
Industria auto foloseste fizica intens in data engineering. Programarea si interpretarea senzorilor necesită studii de specialitate.