Siete tornati tutti dalle ferie? #SemanticSEOWut è qui che vi aspetta con il suo 9° appuntamento.
Questa settimana c’è davvero tanta roba.
#1 Alcune presentazioni dal Semantic Technology & Business
Si è tenuto questa settimana uno dei più grandi eventi dedicato al Web Semantico, il Semantic Technology & Business, e si terrà la ventesima conferenza ACM SIGKDD su Knowledge Discovery e Data Mining (KDD), dove Google dovrebbe fare annunci importanti.
Di seguito includerò alcune presentazioni del SemTechBiz e negli altri punti dei post interessanti relativamente al tema Google.
Semantic search
Semantic search tutorial
Semantic search on the rise
IIIF and JSON-LD: LODLAM Training Day
Linked Data Lessons from Digital Humanities
#2 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion
È sicuramente la notizia della settimana che ho visto inizialmente da Enrico Altavilla, che aggiunge anche una sintesi iniziale:
This paper by some Google engineers shows a new method to automatically build/expand knowledge bases. The method adopts the extraction of large quantities of possible triples (subject, predicate, object) from web documents and a machine-learning based calculation of the probability that each found triple is actually correct.
e sempre in altri commenti che hanno ripreso il paper Enrico pone l’attenzione non sul fattore grandezza, ma il modo in cui questo sistema permettere di espandere la conoscenza:
Just to give the right proportion to things:
Knowledge Vault confident facts: 271 millions
Knowledge Graph confident facts: 18 billions
Also: those 271M facts are not mainly new facts: 2/3 of them were already present in Freebase. So the main feature of this technology is in the way it expands the knowledge, not mainly in the quantity of new facts that it acquires.
Anche AJ Kohn riprendendo la condivisione di Enrico aggiunge il suo contributo evidenziando alcuni punti che secondo lui sono interessanti:
It’s a bit dense but if you’re interested in the future of search then this is a MUST read.
This paper by a gaggle of Googlers shows the constraints of the current knowledge graph repositories and how they might expand the repository using a variety of methods.
A few things I’ve highlighted here are the fact that HTML trees are quite valuable. This is the actual HTML markup that is being parsed by Google and because it’s on nearly all pages it provides a larger corpus of information. I’d also argue that because there is no intent behind it, the data contained is relatively clean.
The other bit I’ve highlighted is the use of structured data on pages which is mostly related to people (that should raise some eyebrows in and of itself). What you find is that it’s still a smaller corpus and that it has a very poor confidence rate at present. So, those trying to use structured data are generally more aggressive and/or might be sending new triples into the universe so Google can’t be confident about a lot of what is contained there … yet.
This paper has far reaching implications on author based ranking, entity based ranking and the application of rich snippets and knowledge panels.
Come prevedibile anche Bill Slawski e David Amerland offrono il loro contributo sul tema, il primo con il post “Good Bye Knowledge Graph, Hello Google Knowledge Vault?” e il secondo con Google’s Knowledge Vault is Semantic Search on Steroids.
Aaron Bradley conclude con la ciliegina sulla torta riassumendo per i più pigri a partire dalla presentazione di Kevin Murphy nell’Ottobre 2013:
1. Il Knowledge Vault è il più grande repository di dati strutturati automaticamente estratti presente sul pianeta.
2. Possiamo estrarre più informazioni facendo le giuste domande dal web e/o dalle persone.
3. Estraiamo solamente una piccola parte dei fatti sul web.
Di seguito includo il paper
#3 Identifying Entity Types and the Transfiguration of Search @Google
Sempre Bill Slawski recupera un documento firmato Sergey Brin, che già nel 1999 pensava ad un approccio alternativo rispetto a quello che è poi stato il Google che tutti abbiamo conosciuto fino ad oggi.
#4 JSON-LD and Why I Hate the Semantic Web
Questo post non è nuovissimo e fa riferimento all’ingresso di JSON-LD negli standard ufficiali del Web.
Il post è un racconto davvero interessante e intenso di tutto il percorso che JSON-LD ha dovuto affrontare. Una serie di riflessioni davvero interessanti che aiutano a capire quello che spesso si cela dietro a scelte, lungaggini e poca chiarezza di organizzazioni come W3C.
#5 Cosa è uno schema?
Una interessante discussione aperta da Jarno Van Driel che si chiede cosa sia uno schema e quando una tassonomia diventa una ontologia.
Troverete tantissime informazioni interessanti da spulciare nei commenti.
#6 Getting Your Events Into the Knowledge Graph
Chiudo con questo video che spiega come Google preferisce estrapolare le informazioni sugli eventi…ed è una buona notizia per chi organizza gli eventi.