Cum pot căuta cod JS pe mai multe site-uri?


#1

Salutare!

Pe o serie de (zeci, sute de mii) de site-uri doresc să caut o bucată de JavaScript. Pe multe din aceste site-uri codul pe care îl caut este inserat prin Google Tag Manager (GTM), deci ceea ce mă interesează apare în sursă abia după ce se rulează codul de GTM.

M-am gândit să scriu un script care să primească o listă cu site-uri și folosind un Headless browser să descarce prima pagină. Conținutul acestei pagini îl voi salva într-o bază de date, ca să îmi fie ușor să fac diverse interogări.

Aveți cumva alte idei?

Mulțumesc!


(Stanciu Bogdan Mircea) #2

Site crawling / scrapping. Poți face asta in multe limbaje, creezi un script care iterează pe lista ta de site-uri și îi spui sa caute acel script cu proprietățile dorite.


#3

Mulțumesc!

Am găsit și o seamă de tool-uri care oferă headless browser as a service:


https://prerender.io/cloud

https://phantomjscloud.com/index.html


(István F.) #4

Poti rula chromeless pe aws lambda, trebuie sa faci mai multe request-uri/site pana primesti un raspuns dar e practic gratuit. Eventual faci multe conturi de aws daca e prea incet asa.

API-ul de la endpoint de aws lambda il folosesti intr-o aplicatie.