Combattere il crimine organizzato con gli open data

31 marzo 2021

In un precedente articolo sempre su questa piattaforma (I dubbi sulla ricerca di anomalie nel contrasto al riciclaggio)(1), avevo evidenziato l’importanza di disporre di un vasto patrimonio informativo nelle attività di adeguata verifica della clientela e di monitoraggio nel continuo.

Avevo anche accennato ad alcune difficoltà che si incontrano oggi nell’ottenere dati di qualità in merito ai propri clienti; tra queste, il costo degli stessi dati è stato confermato anche scambiando alcuni commenti con dei professionisti del mondo antiriciclaggio.

Mentre iniziavo a scrivere questo articolo, su un’altra testata veniva pubblicata una riflessione di Federico Morando dal titolo “Open data, come usarli nella lotta alla corruzione: il caso di Anac”(2). Leggendo l’interessante contributo, si viene a conoscenza dell’utilità degli open data nell’ambito dei contratti pubblici: la loro disponibilità consente di identificare e segnalare delle incongruenze su cui è possibile per le autorità preposte effettuare delle indagini.

Gli open data consentono infatti alla democrazia di essere più trasparente perché permettono ai cittadini un maggiore controllo della cosa pubblica. La possibilità di accedere a dati grezzi, non ancora elaborati, permette ad osservatori esterni di ricostruire il percorso decisionale con lo stesso livello di dettaglio disponibile ai decisori, di applicare i modelli utilizzati dal soggetto pubblico (o di prendere atto dell’arbitrarietà delle decisioni, nel caso peggiore), di costruire indicatori complessi, di individuare le dimensioni sulle quali valutare gli impatti e di monitorare l’implementazione.

L’uso delle tecnologie dei linked data(3) consente inoltre di visualizzare in modo molto intuitivo grandi quantità di dati, altrimenti di difficile comprensione; in tal senso, merita di essere citato il progetto dell’associazione Copernicani, di cui sono stato presidente, che aiuta a cogliere percettivamente alcuni aspetti critici del bilancio italiano(4).

CHE COSA POTREBBERO FARE LE AUTORITÀ CHE COMBATTONO CONTRO IL RICICLAGGIO DI DENARO?

A parere di chi scrive vi sono almeno due grandi opportunità:

arricchimento delle fonti dati su profili individuali e su statistiche aggregate;
disponibilità di dataset per allenare strumenti di machine learning.

Nel corso dell’adeguata verifica della clientela occorre fare dei controlli sulle informazioni comunicate dal cliente, identificare dei PEP (persone esposte politicamente), cercare delle notizie pregiudizievoli su database e media. Sebbene lo scraping, l’estrazione con programmi di informazioni dai siti internet, non sia visto di buon occhio (anzi, è solitamente illegale), è la tecnologia probabilmente più utilizzata, visto che può essere automatizzata. Vi sono decine di società che hanno trovato modalità di scandagliare il web per raccogliere notizie utili.

Lo scraping, in voga a inizio secolo, è oggi reso più complicato dall’architettura dinamica dei siti e richiede l’uso di piattaforme specializzate. Quando poi si è riusciti a catturare i dati, rimane il problema della loro corretta interpretazione: pochi software sono attualmente in grado di capire con precisione il tipo di connotazione di una notizia rispetto ai nominativi coinvolti.

Per questo motivo, è necessario disporre di fonti informative di prima mano, machine readable; ecco alcuni database, utili per il contrasto alla criminalità, che potrebbero essere forniti secondo l’approccio dei dati aperti:

sentenze penali di secondo grado passate in giudicato;
sentenze della Corte di Cassazione (in progetto una loro trasformazione in formati open data);
aziende che hanno partecipato a bandi pubblici e hanno dichiarato fallimento successivamente all’inizio dei lavori – con informazioni sulla loro struttura societaria;
Comuni e Aziende Socio-sanitarie sciolti per mafia.

Vi sono poi informazioni già fornite pubblicamente, ma in formati che non ne consentono un trattamento agevole e automatizzabile, che potrebbero giovare di una revisione meramente tecnica:

i provvedimenti sanzionatori e i provvedimenti rilevanti pubblicati dalla Banca d’Italia;
tutti gli albi bancari e finanziari, distribuiti tra Banca d’Italia, Consob e OAM.

L’utilizzo dei dati aperti in specifici contesti richiede competenze e strumenti specialistici, occorre infatti dotare i dati presenti su database classici di una semantica formale nel rispetto di standard come RDF. Per questo scopo esistono piattaforme di “smart data management” che consentono di effettuare più velocemente le operazioni di traduzione.

Abbiamo finora effettuato delle valutazioni di opportunità unicamente riguardo a informazioni che sono già di natura pubblica e per le quali sono necessari degli interventi eminentemente di tipo informatico. Cogliamo l’occasione per allargare la discussione ad altre fonti dati, che al momento sono invece mantenute riservate per ragioni normative, provando a valutare l’esistenza di soluzioni tecnologiche in grado di garantire la segretezza informativa. Un’altra soluzione che potrebbe avere un enorme potenziale di sviluppo, e per le startup regtech, e per i regulators, sarebbe la condivisione dei dati raccolti dall’Unità di Informazione Finanziaria che permetterebbe di testare nuovi software di detection, nuove strategie di clustering ecc. Finora il principale scoglio è stato rappresentato dal segreto d’ufficio e dal rischio di interferire con eventuali indagini in corso della Magistratura.

Grazie anche alla grande potenza di calcolo disponibile, sarà presto possibile impiegare tecniche matematiche (differential privacy) che permetteranno di rendere pubbliche delle “viste” dinamiche su dataset che contengono dati personali o dati sensibili senza compromettere le esigenze di data protection. In casi particolari, anche l’uso di tecniche crittografiche avanzate (zero-knowledge models, crittografia omomorfa) renderà possibile una forma di audit di dataset senza richiederne l’esposizione. Un’altra recente tecnologia in grado di anonimizzare dati in sicurezza consiste nella creazione di dati sintetici, ossia di dati generati con degli algoritmi dedicati che vanno a sostituire quelli reali, riproducendone le principali caratteristiche statistiche.

L’utilizzo di questi approcci consentirebbe di addestrare algoritmi di machine learning, che oggi soffrono della scarsità dei dati disponibili, e di sperimentare contemporaneamente diverse soluzioni, da utilizzare poi per il transaction monitoring, andando a selezionare gli approcci più efficaci attraverso un confronto in un ambiente di test controllato, basato sulla stessa base di dati.

Non è nemmeno oggetto di discussione il fatto che l’accesso a dati così sensibili debba essere consentito solo a seguito di approfondite analisi sugli esponenti aziendali delle società richiedenti. L’apertura di dati è una grande opportunità, ma ogni passaggio del processo deve essere adeguatamente presidiato.

Colgo così l’occasione per sostenere la necessità che queste iniziative siano seguite e coordinate da professionisti, accademici e istituzioni di alto profilo, attraverso forme di governance trasparenti e una cabina di regia tra i Ministeri coinvolti, la Banca d’Italia e la Presidenza del Consiglio.

Intervento di:

Andrea DANIELLI con il contributo di Roberto REALE, Presidente di Eutopian

Per approfondimenti, consultare i seguenti link e/o riferimenti:

(1) A. Danielli (2021), “I dubbi sulla ricerca di anomalie nel contrasto al riciclaggio“, www.riskcompliance.it

(2) F. Morando, “Open data, come usarli nella lotta alla corruzione: il caso di Anac”, Agenda Digitale

(3) Cosa sono i linked data e perché creano valore, LinkedData.Center

(4) Legge di Bilancio Italiana (www.budget.g0v.it)