Presidenziali USA 2016: Ecco come analizzare 50.000 tweet al minuto

Le elezioni presidenziali americane sono uno dei pochi eventi in grado di attirare l’interesse di tutto il mondo, e di scatenare online milioni di commenti di utenti che esprimono la propria preferenza (o diffidenza) nei confronti di Hillary Clinton e Donald Trump. Durante la diretta live dei dibattiti presidenziali si arrivano a registrare oltre 50.000 commenti al minuto. Ma come analizzare questa grande quantità di Big data per monitorare, minuto per minuto, la performance di un candidato in un “faccia a faccia” televisivo, o per misurare la quotidiana evoluzione delle preferenze dell’opinione pubblica?

 

Per districarsi tra segnale e “rumore”, possiamo affidarci alla tecnologia per la sentiment analysis, implementata tramite la nuova piattaforma VOICES Analytics®. Ma come funziona il nostro metodo di analisi delle opinioni?

 

Il metodo

Ogni giorno scarichiamo tra i 2 e i 4 milioni di tweet (che diventano tra gli 8 e i 12 milioni in occasione dei dibattiti televisivi tra i due candidati) inerenti alle presidenziali, scritti in inglese e provenienti dagli Stati Uniti. Attraverso una fase di codifica manuale riusciamo a cogliere le sfumature, ironie, allusioni presenti nei vari post. Come funziona effettivamente la codifica? Ecco due esempi di tweet analizzati.

 

 

 

 

Dopo aver codificato un sample sufficientemente numeroso di post (nell’ordine di qualche centinaio), l’algoritmo iSA© estende l’accuratezza interpretativa all’intero universo di post scaricati, misurando così il sentiment nei confronti di Trump e Clinton. Il tutto avviene in modo quasi istantaneo ed il gioco è fatto!

 

Come fare a sapere se un messaggio (politico, di marketing, ecc) funziona? Basta analizzarne la performance minuto per minuto

La velocità dell’algoritmo iSA© permette ad esempio di analizzare minuto per minuto l’andamento di un dibattito TV, non solo per decretare chi sia stato il “vincitore”, ma anche per capire quale messaggio ha funzionato di più e quale meno. In questo esempio riportiamo l’analisi relativa al primo “faccia a faccia” televisivo tra Trump e Clinton. Come si vede anche dal grafico, poi ripreso e pubblicato sulla versione cartacea del “Corriere della Sera”, dopo un inizio un po’ in sordina, Hillary è andata decisamente meglio del rivale. Ma ha raggiunto il picco massimo di gradimento quando ha sfoderato forti attacchi a Trump in merito alla questione raziale.

 

 

Qui la piattaforma VOICES Analytics® ci permette anche di effettuare una topic analysis, e quindi di capire che il tema più discusso in quei minuti era relativo agli abusi della polizia (police, stop & frisk) a presunto sfondo razziale (race), come si può facilmente identificare osservando le parole chiave legate a questo topic. Ma anche i termini "Lester" e "Holt" (il moderatore del dibattito), "Trump" e "wrong" e "uncostitutional". Il tema era in effetti legato alla presunta incostituzionalità (sostenuta da Lester Holt contro Trump) della tecnica "stop & frisk" usata dalla polizia per fermare e arrestare presunti sospetti e oggetto dei recenti fatti di cronaca.

 

Capire come gli eventi modificano il mood dell’opinione pubblica

Per monitorare invece l’evoluzione dell’opinione pubblica in senso più ampio, possiamo utilizzare le informazioni sul mood ricavate dall’analisi del sentiment integrandole con i dati di sondaggio.  Attraverso una apposita analisi econometrica, siamo arrivati a formulare un modello statistico che permette di fare un più esaustivo nowcasting (una previsione del presente) dell’opinione pubblica.

Questi dati possono poi agevolmente essere messi in relazione con gli eventi per capire l’andamento della campagna e verificare quali mosse strategiche o quali scandali esterni abbiano influito in modo determinante sulle preferenze.

 

Ad esempio i dati raccontano che, contrariamente a quello che si potrebbe pensare, a fine settembre la partita sembrava molto equilibrata, con Trump e Hillary impegnati in un costante testa a testa. Sull’onda del primo dibattito televisivo, in cui Trump è apparso in difficoltà ed è stato attaccato in materia di evasione fiscale, ed ancor più in seguito al  video pubblicato dal Washington Post in cui Trump denigrava l’immagine della donna, Hillary è riuscita a prendere decisamente il largo, facendo registrare un picco di preferenze nei giorni del secondo dibattito. Tuttavia negli ultimi giorni la forbice è tornata a farsi più stretta: da un lato i nuovi scandali sessuali che coinvolgono Trump sembrano suscitare effetti minori, inoltre si è tornati a parlare dello scandalo delle e-mail e dei WikiLeaks, tema che ha permesso a Trump di recuperare qualche punto. Ad oggi Clinton resta saldamente avanti, ma le sorprese possono essere dietro l’angolo e gli umori dell’opinione pubblica potrebbero ancora mutare.

 



La stima, formulata attraverso questo metodo e calcolata come media sugli ultimi 3 giorni, verrà aggiornata quotidianamente da oggi e fino all’8 novembre, giorno delle elezioni, nello Speciale sulle Elezioni Presidenziali americane del Corriere della Sera. Nella stessa pagina dello Speciale, oltre all’andamento nel tempo di questa stima, si potrà anche visualizzare una mappa del voto, calcolata utilizzando gli stessi dati relativi agli swing states, ovvero a quegli stati in cui il risultato è ancora in bilico, ma che determineranno alla fine, più del voto nazionale, l’esito della sfida. In questo caso, la mappa verrà aggiornata due volte a settimana (lunedì e giovedì) fornendo la previsione nei 10 stati in cui la partita è più aperta.

 

Per un riassunto dell'analisi leggete il nostro articolo per il The Washington Post.