Disruptive technologies in disruptive companies, how Big Data is used in Recommendation Systems to change our lives

adavidoaiei · februarie 15, 2016, 12:16pm

Recommendation systems este un subset de probleme de machine learning diferit de cele de classification problems implementate in tensorflow, articolul prezinta bazele algoritmilor si tehnologiilor dintr-un recommendation system si cum marile compani (amazon, netflix, imdb) folosesc aceste sisteme pentru as mari rata de conversie, exista si alte aplicatii pentru un astfel de sistem, primul la care ma gandesc este un site cu oferte de turism, un site de anunturi sau magazin online, dar sunt sigur ca daca analizezi fiecare tip de business poti gasi o modalitate de a aplica aceste concepte.

http://www.kdnuggets.com/2015/10/big-data-recommendation-systems-change-lives.html

si template-ul de la Prediction.IO care se specifica in articol:

This Recommendation Engine Template has integrated Apache Spark MLlib’s Collaborative Filtering algorithm by default. You can customize it easily to fit your specific needs.

We are going to show you how to create your own recommendation engine for production use based on this template.

https://docs.prediction.io/templates/recommendation/quickstart/

Edit: teoria din spatele disruptive innovation, disruptive technology si exemple:

iamntz · februarie 15, 2016, 6:06pm

Să știi că de multe ori m-am întrebat cum funcționează recomandările astea și de ce sunt atât de stupide uneori.

Am observat că de multe ori îmi sunt recomandate ori produse tocmai cumpărate ori produse din aceeași categorie cu ce am cumpărat (e.g. îmi iau o mașină de spălat, aș vrea să primesc recomandări la detergent, nicidecum la alte mașini de spălat; idem la imprimante)

adavidoaiei · februarie 15, 2016, 6:40pm

Un studiu de caz, o implementare a unui recommender system cu collaborative filtering in Python bazat pe Apache Spark:

Building a Movie Recommendation Service with Apache Spark & Flask - Part 1

Edit: Apache Spark contine mai multe module pentru big data, dintre care mi-au atras atentia cele de machine learning si data streaming, proiectul open source cel mai popular pe bigdata de pe github dupa activitate, el a fost la inceput ca teza de doctorat a lui Matei Zaharia la Berkeley, care apoi sa mutat la MIT, Apache Spark suporta mai multe limbaje Python, Java, Scala, codul din exemplu putand la fel de bine implementat in oricare din aceste 3 limbaje o introducere in Apache Spark care acopera si partea de Machine Learning si multe alte concepte Apache Spark: