Tempo di rivoluzioni in casa Google?
Forse.
Qualche notizia positiva c’è ed è da qui che vogliamo partire: l’applicazione Hangouts è stata aggiornata e anche Google Contacts ha subito un notevole miglioramento: ora è possibile gestire da desktop i nostri contatti, sia quelli di Google Plus che quelli di Android. Ma di questo parleremo molto più in dettaglio domani, con un articolo che riassume tutte le novità social che Google ci ha riservato.
La vera novità, al momento, sembra essere quella che moltissime testate hanno riportato, ispirate dalle numerosi fonti estere. Viene da chiederci quanto sia conosciuta la materia, perché quella che si è creata è un vera e propria rincorsa alle bufale: la prima, di cui parleremo ampiamente domani, riguarda la morte di Google Plus. Il nostro caro estinto avrà sofferto, lasciando questo mondo? Secondo noi no, perché a quanto ci risulta è ancora vivo e vegeto. Ma soprattutto (e qui andiamo alla seconda bufala): quanto ci ha messo Google per realizzare il suo algoritmo antibufala, come molti giornali italiani hanno riportato? Ve lo diciamo noi: zero secondi. Il perché è semplice da intuire: non esiste nessun algoritmo antibufala, ma la disinformazione e la scarsa conoscenza del settore hanno indotto moltissimi autori a cadere nella trappola, creando un circolo vizioso di false notizie che ha fatto il giro d’Italia.
Ma andiamo con ordine.
Il sito Ansa parte subito con la novità di casa Google e scrive: “Google ha pronto un algoritmo che invece di classificare i risultati delle ricerche per popolarità, come avviene adesso, riesce a capirne l’affidabilità, scovando ‘bufale’ e notizie false.” Ma la verità è un’altra. Google non ha nessun algortimo anti bufala pronto nel cassetto. La fonte che cita l’Ansa, infatti, è un paper e non un algoritmo, è una semplice ricerca che non mostra nulla di conclusivo (qui puoi vedere tu stesso di cosa stiamo parlando). La ricerca, poi, è scollegata dai risultati di Google e non si capisce come si possano legare le due diverse informazioni. Ogni anno Google ricerca e produce centinaia di documenti, questo è solo uno dei tanti: lo stesso Matt Cutts ha parlato di circa 500 cambiamenti algoritmici all’anno, studiati e analizzati ma spesso non portati avanti per motivi diversi.
Tranquilli, allora: Google non ha pronto nessun algoritmo magico. Quello che resta di interessante, però, sono i test realizzati mixando fattori diversi.
I risultati sperimentali hanno dato buoni segnali in due diversi campi:
- Identificazione della qualità delle fonti via web (qualità data per estrazione di dati e non qualità della pagina in funzione dei risultati di ricerca, differenza notevole e fondamentale)
- Miglioramento dell’attuale sistema di Knowledge Fusion (dato molto importante contenuto nel paper: ora non si lavora più solo a livello di data e di fonte, ma anche a livello di soggetto, predicato e oggetto. In questo modo, confrontando il tutto con i dati raccolti su Freebase si può avere un miglior controllo nella qualità della fonte)
Questi dati, però, restano sotto lo stretto controllo di persone umane, rendendo possibili casi di manipolazione fatti senza che Google se ne accorga. I dati su Freebase, inoltre, sono estratti da fonti controllate con metodi basati su link: è qui che si vuole attuare il vero cambiamento, creando un nuovo approccio per determinare la reale qualità di una fonte per Knowledge Fusion. Niente a che vedere con i risultati di ricerca, insomma.
In questo modo il sistema può identificare dove è presente un eventuale errore, confrontandolo con i dati raccolti e stabilendo così una qualità della fonte che si basi sui fatti citati dalla fonte stessa. Il risultato? Meno errori ci sono, più la fonte sarà ritenuta attendibile e verrà utilizzata per estrarre dati e far crescere la conoscenza generale a cui Google aspira.
Ma dalla teoria ai fatti c’è un abisso. In realtà a casa Google stanno ancora cercando di capire come comprendere se l’errore dei dati può essere o meno generato da Google al momento dell’estrapolazione, in più non è stata prevista un’affidabilità della fonte in base a un tema e i metodi di estrazione restano limitati. Per non parlare, poi, di un sistema di copyright per identificare chi ruba i dati. Insomma, il paper si mostra interessante, ma al momento possiamo dire che non c’è nulla che possa incidere sui risultati di ricerca.
E se volessero sostituire i dati con i link?
Ecco 5 motivi per cui sarebbe davvero difficile farlo:
- Non avendo tutti i siti dei dati da estrapolare, l’algoritmo sarebbe troppo specifico e non potrebbe essere applicato a tutti
- In alcuni siti (i forum, ad esempio) creano dibattiti sui dati, rendendoli non conclusivi
- Servirebbe un controllo umano, così da evitare una creazione di dati nuovi non verificabili
- Si attuerebbe un meccanismo per cui basterebbe riempire un sito di dati veri per farlo considerare come attendibile
- Se lo dicono i giornali che i dati saranno sostituiti ai link, allora abbiamo le prove che non è vero
Ecco la bufala smontata, pezzo per pezzo.
Questa è e rimane la vera informazione: cerchiamo di diffonderla il più possibile, il nostro settore ne ha bisogno!
Ecco il video della puntata di FastForward in cui Giorgio ci spiega nel dettaglio la vicenda!