Scopul este de a gasi o metoda de a detecta fraudele in achizitiile publice.
Toate detaliile tehncice despre cum se poate accesa si instala aici:
Scopul este de a gasi o metoda de a detecta fraudele in achizitiile publice.
Toate detaliile tehncice despre cum se poate accesa si instala aici:
foarte tare.
sper să ajungă la cât mai multă lume.
nu-mi permite momentan spațiul, dar sunt foarte curios să-mi instalez.
Nimerisem acum vreo 2 săptămâni pe SEAP și eram iritat de cât de neprietenos e UX-ul, și mă gândeam, ce mișto ar fi să fie extrase datele și puse într-o interfață navigabilă, cu caietele de sarcini OCR-izate / parsate. Dar acum când văd câte sunt de fapt…
Si eu sper sa ajunga la cat mai multa lume.
Cine e curios sa vada datele din Kibana online, mesaj pe privat sa trimit user/pass
Foarte buna initiativa!
Poate poti sa iei legatura cu cei de la Code4Romania. Se pot face chesttii faine cu datele alea
Super initiativa, ne mai trebuie doar un grafic interactiv cu toate relatiile si firmele politicienilor impreuna cu licitiatiile si declaratiile de avere.
Daca ar exista asa ceva ai sti din start pe cine sa nu votezi.
Văzusem în urmă cu ceva timp conexiunile legate de sutele de firmulețe care au într-un fel legătură cu Sebastian Ghiță. A fost ceva pretty wild.
Da, ar fi interesant de vazut conexiunile dintre firmele castigatoare si persoane din administratie.
Sunt foarte interesante datele agregate.
285 de milioane de lei din banii romanilor au fost cheltuiti pe cartuse de imprimata.
E clar ca e nevoie mare de digitalizarea tuturor serviciilor publice.
am încercat să caut și eu niște produse comparabile, să văd eventual diferențe de preț pe același produs, dar numele sunt generice și specificațiile / cantitatea sunt într-un pdf, right?
am văzut și eu cartușe de toner, da plaja e prea largă, am găsit ‘pâine’ (cel mai mult s-a cumpărat, parcă în Alba), da și pâinile sunt diferite, am găsit ‘pâine albă 500 g’, da nu erau doar câteva înregistrări, și oricum nu știm cantitatea
unele au chiar descrieri detaliate. Un exemplu de tip de frauda cu pret dublat aici:
http://e-licitatie.ro/pub/direct-acquisition/view/106275846
si pretul real
https://www.pcfun.ro/Imprimante-Consumabile-Echipamente-Printare-Multifunctionale-si-Copiatoare/COPIATOR-CANON-A3-COLOR-IR-ADVANCE-DX-C3725I-1314595.html
sunt indexate/ se poate căuta/filtra și în descrieri? în ce dashboard?
toate campurile text sunt indexate si cautabile:
Dump-ul ăla nu se poate pune în alt format, gata de folosit? Ai arhivă de 50Gb, probabil încă 100Gb+ extras, și încă 100Gb după ce este importat.
Treaba asta va descuraja oamenii să stea la seed iar majoritatea tind să cred că va lua, dezarhiva, șterge torrent-ul. Dacă ar fi un format gata de folosit de ES ar încuraja oamenii să rămână la seed pentru mai mult timp
Torentul contine ambele variante:
arhiva-sicap-elasticsearch-snapshot.tar.gz (35gb)
dezarhivata contine toata baza de date snapshot pentru ES
si fisiere individuale pe fiecare an, ce pot fi importate cu elasticdump
20M Aug 1 21:41 achizitii-directe-2007.json.gz
24M Aug 1 21:41 achizitii-directe-2008.json.gz
236M Aug 1 21:43 achizitii-directe-2009.json.gz
447M Aug 1 21:47 achizitii-directe-2010.json.gz
541M Aug 1 21:50 achizitii-directe-2011.json.gz
587M Aug 1 21:54 achizitii-directe-2012.json.gz
628M Aug 1 21:59 achizitii-directe-2013.json.gz
738M Aug 1 22:05 achizitii-directe-2014.json.gz
836M Aug 1 22:11 achizitii-directe-2015.json.gz
1.3G Aug 1 22:20 achizitii-directe-2016.json.gz
2.3G Aug 1 22:35 achizitii-directe-2017.json.gz
1.9G Aug 1 22:48 achizitii-directe-2018.json.gz
1.7G Aug 1 23:02 achizitii-directe-2019.json.gz
835M Aug 1 22:33 achizitii-directe-2020.json.gz
412M Aug 1 21:35 licitatii-publice.json.gz
Când nu știi, nu știi.
Aveam impresia că este un json mare pus într-o arhivă spartă în mai multe bucăți. Mă uitam la 200x
din numele arhivei și mă miram de ce a început de acolo (nu de la 00
) și de ce fiecare arhivă are altă dimensiune.
Există academictorrents.com da m-am uitat acum, și n-am găsit seturi de date similare (public procurement)
Văzui acu’ că există AWS Open Data Sponsorship Program + Registry of Open Data on AWS.
ah, nu mi-a fost clară partea asta, am downloadat un json, să văd cum arată, da mi-a fost frică că e nevoie și de snapshot, pentru relații or whatever. *între timp m-am lămurit că mi-am făcut și eu un cont demo pe elastic.co
Există un proiect similar la nivel european, OpenTender
→ Opentender ; București – da au date până în 2019
Am dat și peste openspending.org unde teoretic poți să publici (packager, contributors, community.openspending.org)
Intr-adevar pare umflat, dar vezi ca in pretul ala mare sunt incluse niste optionarele + instlaare + configurare
Cei de la Elastic au pus online webminarul de saptamana trecuta despre cum sa construiesti Dashboards in Kibana. Cine e curios, linkul este mai jos:
Datele astea sunt disponibile de mult pe un site public. La un moment dat ma plictiseam și ma apucasem sa fac un anomaly detection gen sa găsesc când cineva cumpără hârtie igienica de 10 ori mai scump etc. Problema mare e ca descrierea produselor e cum au pus aia de la primărie acolo și e neclara. Nu mi s-a părut realizabil. Plus de multe ori lipseau cantitățile sau scria în descriere,etc.
Da, asa e, sunt destul inregistrari cu date eronate. Am gasit contracte unde in loc 3 milioane au pus 3 miliarde. (probabil inca se gandeau la lei vechi). Imagineaza-ti o comuna de la cucuietii din deal accesand fonduri de miliarde de lei.
Se poate face detectare de anomalii, am gasit doua variante:
1/ prin crowd wisdom - puse toate contractele intr-un site ce permite foarte usor cautarea pe diferite criterii si invitat publicul larg sa gaseasca tranzactii “dubioase”. Apoi, dupa ce sunt reportate mii de astfel de tranzactii, se va incerca cu un model de ML sa gaseasca tranzactii similare.
2/ Utilizand legea lui Benford - care postuleaza ca primul digit dintr-un numar mare de numere nealeatoare pica pe o curba geometrica. Se analizeaza deviatia de la aceasta curba. Metoda este folosita pentru detectarea fraudei in datele contabile de catre firmele de audit.
Episodul 4 din miniseria documentar Connected de pe Netflix, explica acest fenomen matematic.
sicap update: https://sicap.ai/ - motor de cautare pentru contractele indexate in elastic search
codul sursa aici: