Legalitate scraping titlu, link, primul paragraf site de stiri


(Soukoulis) #1

Este legal sa fac scraping (responsabil, automat) la un site de stiri sa filtrez rezultatele pe baza unor criterii iar apoi sa afisez acele rezultate pe un alt site care va contine: titlul, linkul si primul paragraf al articolului?

Site-ul va fi gen reddit unde poti lasa comentarii si este un competitor direct cu site-urile respective.

Botul va fi responsabil in modul in care face scraping (page/minute), request header cu nume, link, va respecta robots.txt


(Stanciu Bogdan Mircea) #2

Probabil depinde de sursa de știri. Poți consulta termenii și condițiile.

Spre exemplu, pentru MediaFax, termenii spun :

“c. Orice formă de copiere, stocare, modificare şi/sau transmitere a Conţinutului este expres interzisă, fără acordul prealabil şi scris al Mediafax.”


(Soukoulis) #3

Da, dar este legal? Cum ramane cu motoarele de cautare, teoretic as face exact acelasi lucru ca un motor de cautare (scraping->filtering->displaying).


(Horia Coman) #4

http://blog.icreon.us/advise/web-scraping-legality pare sa fie de aceiasi parere.

In principiu relatia publisherilor cu servicii third party de agregare e OK atata timp cat agregatorul te trimite la el si e not-OK cat timp agregatorul nu te trimite. Reddit, Google si Fb intra in prima categorie, pe cand Google News intra intr-a doua. Drept urmare Google News e mereu tinta proceselor prin lume din partea publisherilor suparati.