Mi se pare o soluție foarte simplă și foarte ingenioasă pentru a reduce fișierele duplicat: sha1 pe conținutul fiecărui atașament, fiecărui mail i se atribuie doar o referință spre fișier iar fișierul propriu zis este servit pentru toate mailurile.
At the time, we didn’t have file deduplication in place, but we estimated that it could shrink the total storage size by 36%, because many users receive the same messages, such as price lists from online stores and newsletters from social networks that contain images and so on.
Pe de altă parte, nu sunt foarte sigur că vreau să știu cum au aflat această informație…
N-zis nimeni că mail.ru este criptat, nici GMail nu este criptat, chiar scrie clar că cei de la Google citesc mesajele pentru a servi reclame mai relevante.
GMail încearcă să folosească TLS ptr transmisia mesajelor, dar stocarea propriu-zisa nu e criptata afaik. Pentru scopuri de spam/reclame/politie.
Nu trebuie neapărat un sistem specializat precum cryptdb că sa meargă de-duping cu documente criptate, tho’. Atâta vreme cât ei cripteaza cu un algoritm stas și o cheie cunoscuta de ei, fiecare document copie o să arate la fel dpdv binar, așa că hash-ul o să fie egal.