AI pentru recunoaşterea SPAM-ului

serghei · septembrie 23, 2020, 9:09am

Că tot s-a vorbit de AI, mă gândesc de ceva timp să construiesc un mecanism care să recunoască un anumit tip de SPAM/SCAM potenţial periculos pentru userii mei. E ăla în care te anunţă că mail-ul ţi se va bloca dacă nu accesezi nu-ştiu-ce-link şi să bagi userul şi parola contului tău de email.

Momentan îl detectez cu o oarecare rată de succes băbeşte, prin testarea de combinaţii de cuvinte prezente în email. Problema e că scammerii sunt şmecheri, textele sunt extrem de scurte şi schimbă mereu cuvintele după care i-aş putea detecta, aşa că există posibilitatea mare de miss-detection sau false positive detection.

Aş încerca ceva cu AI, dar am experienţă zero în domeniul ăsta. Ştiţi vreo bibliotecă (preferabil C/C++) care s-ar preta pentru genul ăsta de pattern recognition?

anon31094663 · septembrie 23, 2020, 9:29am

Pe kaggle au un tutorial pe Natural Language Processing, din cate tin minte exact pe detectarea spam-ului.
De obicei tutorialurile folosesc python sau R, pentru ca trebuie sa te tot joci cu datele, sa incerci tot felul de modele, la alea diversi parametri, sa vezi informatiile prin chart-uri, etc. Nu merge optim din prima.
Un limbaj interpretat e mai convenabil pentru asa ceva.

Dar bineinteles ca poti gasi biblioteci apelabile din C++ (chiar implementate in C++). De exemplu, tensorflow. Aici e un tutorial pe NLP (e pe negativ/pozitiv la ‘movie reviews’, dar poate fi adaptat usor la spam/not spam la e-mail-uri), dar in python: https://www.tensorflow.org/hub/tutorials/tf2_text_classification
Dar, dupa cum spuneam, se poate folosi si din C++: https://www.tensorflow.org/api_docs/cc

serghei · septembrie 23, 2020, 10:02am

Mersi, am tot auzit de tensorflow dar am evitat să mă înfig în el. AI pare un domeniu foarte complicat, trebuie să mă pun cu burta pe carte Mersi pentru sugestii.

anon31094663 · septembrie 23, 2020, 10:07am

Daca e doar folosirea unor biblioteci si nu te bagi in chestii avansate (adica sa implementezi algoritmi proprii), de de fapt destul de simplu. Daca te inregistrezi pe kaggle, au acolo cateva tutorial-uri foarte faine.