Am pus pe github arhiva cu peste 22 milioane licitatii publice si achizitii directe din perioada 2007-2020

Scopul este de a gasi o metoda de a detecta fraudele in achizitiile publice.

Toate detaliile tehncice despre cum se poate accesa si instala aici:

22 Likes

:clap: :clap: :clap: foarte tare.
sper să ajungă la cât mai multă lume.
nu-mi permite momentan spațiul, dar sunt foarte curios să-mi instalez.

Nimerisem acum vreo 2 săptămâni pe SEAP și eram iritat de cât de neprietenos e UX-ul, și mă gândeam, ce mișto ar fi să fie extrase datele și puse într-o interfață navigabilă, cu caietele de sarcini OCR-izate / parsate. Dar acum când văd câte sunt de fapt…

2 Likes

Si eu sper sa ajunga la cat mai multa lume.

Cine e curios sa vada datele din Kibana online, mesaj pe privat sa trimit user/pass

Foarte buna initiativa! :clap:

Poate poti sa iei legatura cu cei de la Code4Romania. Se pot face chesttii faine cu datele alea :slight_smile:

1 Like

Super initiativa, ne mai trebuie doar un grafic interactiv cu toate relatiile si firmele politicienilor impreuna cu licitiatiile si declaratiile de avere.

Daca ar exista asa ceva ai sti din start pe cine sa nu votezi.

3 Likes

Văzusem în urmă cu ceva timp conexiunile legate de sutele de firmulețe care au într-un fel legătură cu Sebastian Ghiță. A fost ceva pretty wild.

1 Like

Da, ar fi interesant de vazut conexiunile dintre firmele castigatoare si persoane din administratie.

Sunt foarte interesante datele agregate.

285 de milioane de lei din banii romanilor au fost cheltuiti pe cartuse de imprimata.
E clar ca e nevoie mare de digitalizarea tuturor serviciilor publice.

5 Likes

am încercat să caut și eu niște produse comparabile, să văd eventual diferențe de preț pe același produs, dar numele sunt generice și specificațiile / cantitatea sunt într-un pdf, right?

am văzut și eu cartușe de toner, da plaja e prea largă, am găsit ‘pâine’ (cel mai mult s-a cumpărat, parcă în Alba), da și pâinile sunt diferite, am găsit ‘pâine albă 500 g’, da nu erau doar câteva înregistrări, și oricum nu știm cantitatea :confused:

unele au chiar descrieri detaliate. Un exemplu de tip de frauda cu pret dublat aici:

http://e-licitatie.ro/pub/direct-acquisition/view/106275846
si pretul real
https://www.pcfun.ro/Imprimante-Consumabile-Echipamente-Printare-Multifunctionale-si-Copiatoare/COPIATOR-CANON-A3-COLOR-IR-ADVANCE-DX-C3725I-1314595.html

2 Likes

sunt indexate/ se poate căuta/filtra și în descrieri? în ce dashboard?

toate campurile text sunt indexate si cautabile:

1 Like

Dump-ul ăla nu se poate pune în alt format, gata de folosit? Ai arhivă de 50Gb, probabil încă 100Gb+ extras, și încă 100Gb după ce este importat.

Treaba asta va descuraja oamenii să stea la seed iar majoritatea tind să cred că va lua, dezarhiva, șterge torrent-ul. Dacă ar fi un format gata de folosit de ES ar încuraja oamenii să rămână la seed pentru mai mult timp :wink:

2 Likes

Torentul contine ambele variante:

arhiva-sicap-elasticsearch-snapshot.tar.gz (35gb)

dezarhivata contine toata baza de date snapshot pentru ES

si fisiere individuale pe fiecare an, ce pot fi importate cu elasticdump

20M Aug 1 21:41 achizitii-directe-2007.json.gz
24M Aug 1 21:41 achizitii-directe-2008.json.gz
236M Aug 1 21:43 achizitii-directe-2009.json.gz
447M Aug 1 21:47 achizitii-directe-2010.json.gz
541M Aug 1 21:50 achizitii-directe-2011.json.gz
587M Aug 1 21:54 achizitii-directe-2012.json.gz
628M Aug 1 21:59 achizitii-directe-2013.json.gz
738M Aug 1 22:05 achizitii-directe-2014.json.gz
836M Aug 1 22:11 achizitii-directe-2015.json.gz
1.3G Aug 1 22:20 achizitii-directe-2016.json.gz
2.3G Aug 1 22:35 achizitii-directe-2017.json.gz
1.9G Aug 1 22:48 achizitii-directe-2018.json.gz
1.7G Aug 1 23:02 achizitii-directe-2019.json.gz
835M Aug 1 22:33 achizitii-directe-2020.json.gz
412M Aug 1 21:35 licitatii-publice.json.gz

2 Likes

Când nu știi, nu știi. :facepalm:

Aveam impresia că este un json mare pus într-o arhivă spartă în mai multe bucăți. Mă uitam la 200x din numele arhivei și mă miram de ce a început de acolo (nu de la 00) și de ce fiecare arhivă are altă dimensiune.

:facepalm:

1 Like

Există academictorrents.com da m-am uitat acum, și n-am găsit seturi de date similare (public procurement)
Văzui acu’ că există AWS Open Data Sponsorship Program + Registry of Open Data on AWS.

ah, nu mi-a fost clară partea asta, am downloadat un json, să văd cum arată, da mi-a fost frică că e nevoie și de snapshot, pentru relații or whatever. *între timp m-am lămurit că mi-am făcut și eu un cont demo pe elastic.co


Există un proiect similar la nivel european, OpenTender
Opentender ; București – da au date până în 2019 :confused:

Am dat și peste openspending.org unde teoretic poți să publici (packager, contributors, community.openspending.org)

1 Like

Intr-adevar pare umflat, dar vezi ca in pretul ala mare sunt incluse niste optionarele + instlaare + configurare :slight_smile:

Cei de la Elastic au pus online webminarul de saptamana trecuta despre cum sa construiesti Dashboards in Kibana. Cine e curios, linkul este mai jos:

Datele astea sunt disponibile de mult pe un site public. La un moment dat ma plictiseam și ma apucasem sa fac un anomaly detection gen sa găsesc când cineva cumpără hârtie igienica de 10 ori mai scump etc. Problema mare e ca descrierea produselor e cum au pus aia de la primărie acolo și e neclara. Nu mi s-a părut realizabil. Plus de multe ori lipseau cantitățile sau scria în descriere,etc.

1 Like

Da, asa e, sunt destul inregistrari cu date eronate. Am gasit contracte unde in loc 3 milioane au pus 3 miliarde. (probabil inca se gandeau la lei vechi). Imagineaza-ti o comuna de la cucuietii din deal accesand fonduri de miliarde de lei.

Se poate face detectare de anomalii, am gasit doua variante:

1/ prin crowd wisdom - puse toate contractele intr-un site ce permite foarte usor cautarea pe diferite criterii si invitat publicul larg sa gaseasca tranzactii “dubioase”. Apoi, dupa ce sunt reportate mii de astfel de tranzactii, se va incerca cu un model de ML sa gaseasca tranzactii similare.

2/ Utilizand legea lui Benford - care postuleaza ca primul digit dintr-un numar mare de numere nealeatoare pica pe o curba geometrica. Se analizeaza deviatia de la aceasta curba. Metoda este folosita pentru detectarea fraudei in datele contabile de catre firmele de audit.
Episodul 4 din miniseria documentar Connected de pe Netflix, explica acest fenomen matematic.

5 Likes

sicap update: https://sicap.ai/ - motor de cautare pentru contractele indexate in elastic search

  • are functionalitate de raportare de contracte suspicioase, ca apoi sa fie analizate cu ML

codul sursa aici:

5 Likes