Am scris un mic script care sa ia toate anunturile de inchirieri garsoniere de pe www.piata-az.ro sa le salveze intr-o baza de date MongoDB in cloud Azure, apoi cu workbench de machine learning Weka, am incercat sa construiesc un model de machine learning cu aceste date care sa iti dea pretul in functie de caracteristicile garsonierei, datele se split-uesc, 66% din date sunt folosite la construirea modelului de machine learning, 44% la evaluarea modelului de machine learning, evaluarea modelului de machine learning mi-a dat o acuratete de 70% a predictiilor, cea ce inseamna ca ar mai trebui tunat, 90% acuratete a modelului de machine learning e ideal.
Crawler il puteti gasi pe github cat si anunturile crawl-uite in format CSV.
https://github.com/adavidoaiei/Crawling-web-for-machine-learning
Workbench Weka de machine learning iti permite sa serializezi binar modelul de machine learning intr-un fisier *.model si apoi sa il consumi din orice tip de aplicatie(web, desktop, mobile, servicii rest, soap) si din orice tehnologie(Java, .NET, Python, PHP, Node.js, …), aceste modele de machine learning se pot scala pe orizontala in cloud, pe mai multe masinii.
Internet-ul inseamna machine learning si big data in cloud pentru marile companii, acestia colecteaza TB of data zilnic de la utilizatori sau din resurse de pe internet, si au ca nucleu machine learning pentru a gasi pattern-uri in aceste date, un model predictiv de machine learning este un pattern al datelor indiferent daca e un arbore de decizie(decision tree), configuratia unei retele neurale sau alta reprezentare, Google(motor-ul de cautare, sistemul de adds), NetFlix(movies recommandation system), Amazon(products recommandation system)… Who has big data use machine learning for finding patterns in this data, otherwise the power of big data is wasted, sursele posibile de colectare Big Data sunt de la online users, senzori, Internet of Things, crawling resurse de pe internet(anunturi, review-uri la produse, forum-uri), retele sociale, dar au in spate o armata de ingineri software.