Dataset Search Google, il motore di ricerca dedicato ai set di dati
Google introduce il Dataset Search, un motore di ricerca dedicato ai set di dati contenente esclusivamente ricerche, statistiche e pubblicazioni di varia natura (scientifica, commerciale, governativa, ecc).
In pratica, con una semplice ricerca per query, gli utenti possono trovare set di dati ospitati in migliaia di repository sul Web.
Ma non è tutto.
- DataSet Search indicizza principalmente le pagine di set di dati che contengono dati strutturati SchemaOrg.
- In serp classica, la feature dataset prevede uno snippet dedicato come si vede nell’esempio.
- Dataset Search normalizza e riconcilia i metadati che provengono direttamente dalle pagine web.
Una sorta di pubmed interno all’ecosistema Google, davvero molto interessante…
Cosa può essere considerato un set di dati o data set?
Tra le linee guida Google relative ai set di dati, Google riporta un elenco dettagliato di tipologie specifiche di data set o set di dati considerati come tali che riporto integralmente come da fonte:
- tabella o file csv contenente dati;
- raccolta organizzata di tabelle;
- file in formato proprietario contenente dati;
- raccolta di file che insieme costituiscono un set di dati significativo;
- oggetto strutturato con dati in un altro formato potenzialmente caricabile in uno speciale strumento per l’elaborazione;
- dati di acquisizione delle immagini;
- file relativi al machine learning, quali parametri addestrati o definizioni di strutture di rete neurale.
Google conferma di essere in grado di comprendere i set di dati nelle pagine web sia grazie al markup schema.org sia i formati equivalenti nel Data Catalog Vocabulary di W3C. Sotto un esempio di markup Dataset estratto direttamente da Google Search Central.
Come eliminare un set di dati dalla Dataset Search
Per non visualizzare o meglio non indicizzare un set di dati qualsiasi in dataset search, è sufficiente gestire il meta tag robots con la direttiva noindex come si fa per una qualunque pagina web nella classica Google Search. Ovviamente, anche riguardo alle tempistiche il caso è lo stesso dei classici risultati di ricerca: potrebbe volerci del tempo (molto dipende da quando, come e se il crawler scansionerà la risorsa) affinché le direttive vengano recepite.
Come consentire a Google di trovare facilmente le url contenenti set di dati o dataset
Anche in questo caso i suggerimenti di Google nelle linee guida dedicate ai set di dati sono simili a quelle per le classiche pagine web: per agevolare il crawler nella individuazione delle risorse da scansionare e successivamente indicizzare, le linee guida consigliano l’utilizzo delle sitemap e dei dati strutturati SameAs in modo da documentare in che modo vengono pubblicate le descrizioni dei data set dell’intero sito web.
Sotto un’immagine estratta dalle linee guida Google sui set di dati che riporta quando utilizzare il markup SameAs, le best practice relative a fonti e provenienza e i consigli di limitazione del testo:
Fonti:
https://ai.googleblog.com/2023/02/datasets-at-your-fingertips-in-google.html?m=1
Link al motore di ricerca dati:
https://datasetsearch.research.google.com/
Link alle linee guida:
https://developers.google.com/search/docs/appearance/structured-data/dataset?hl=it