Google Dataset Search
Seit Sept. 2018 ist die Suche nach den Datensets von Google angeboten. Der Service ist "Google Dataset Search" genannt. Ist dies für die Japanforschung interessant?
In diesem Artikel habe ich ganz kurz "Google Dataset Search" ausprobiert.
Zuerst findet man den Portal unter der URL:
https://datasetsearch.research.google.com/
In der Erläuterung gibt es eine kurze Beschreibung über den Service:
Laut Google Beschreibung sind die Metadaten automatisch hergestellt. Dabei wird die ursprüngliche Beschreibung vom Datenset-Anbieter verwendet. Die Qualität der Metadaten ist daher nicht einheitlich. Sie hängt vom Anbieter ab...
Man muss halt da hoffen, dass der Anbieter sinnvoll die ursprüngliche Metadaten anlegt.
Google gibt an, wie die Daten im Internet automatisch als solche erkannt werden. (https://developers.google.com/search/docs/data-types/dataset?hl=de#approach)
Wenn das automatische Erkennen nicht funktioniert, kommt es nicht in "Google Dataset Search".
Es sind jedoch recht viele Einträge dort, z.B. "Japan City Systems of the early Meiji era" von Harvard Dataverse oder "Global Map Japan Data : Environmental, Land, Transportation, Population Spatial Data" von Geospatial Information Authority of Japan.
Ich habe auch mit Stichwort "日本" gesucht. Damit kommen auch mehr als 100 Treffer. Darunter wie z.b. "聖徳太子日本国未来記 | 日本古典籍データセット" von ROIS-DS人文学オープンデータ共同利用センター oder "日本 - 粗出生率" von knoema (World Data Atlas).
E-Stat ist eine Datenbank für Statistischen Daten, die von der japanischen Regierung oder öffentlichen Verwaltungsinsitutionen hergestellt sind.
Inhaltlich unterscheiden sie sich dadurch - "Google Dataset Search" nimmt nicht nur Statistiken, sondern Datensätze, und zwar von diversen Anbietern. Von Privaten Person, private Unternehmen bis hin zu Universitäten oder andere Instiutionen. Anderes gesagt, e-Stat hat relativ homogenen Inhalt.
Suchmöglichkeit - Bei e-Stat geht die Suche auf eine tiefere Ebene. Dort wird auch ein Objekt innerhalb einer Statistik gesucht.
Im oberen Beispiel ist das Objekt "ハンバーガー" in unterschiedlichen statistischen Inhalten durchgesucht.
Demgegenüber scheint die Suche bei "Google Dataset Search" nicht so tief zu gehen.
"Google Dataset Search" ist also eher für die Suche nach Datensätze im breiten Spektrum geeignet.
Hier haben wir "Google Dataset Search" ein wenig kennengelernt. Wenn jemand weiter die Erfahrung mit "Google Dataset Search" gemacht hat,sag mir bitte Bescheid - ich würde mich dafür interessieren;)
In diesem Artikel habe ich ganz kurz "Google Dataset Search" ausprobiert.
Zuerst findet man den Portal unter der URL:
https://datasetsearch.research.google.com/
In der Erläuterung gibt es eine kurze Beschreibung über den Service:
Dataset Search ermöglicht Nutzern, im Web gespeicherte Datensätze mithilfe einer einfachen Stichwortsuche zu finden. Mit dem Tool lassen sich Informationen zu Datensätzen finden, die in Tausenden von Repositories im gesamten Web gehostet werden. Dadurch werden diese Datensätze allgemein zugänglich und nutzbar.
Es geht hier nur um die spezifische Suche nach Datensets. Welche Datensets kann man da finden? Sind sie für die Japanforschung interessant?
Um die Fragen zu beantworten, habe ich zuerst sehr allgemeines Stichwort wie "japan*" und "日本" jeweils eingegeben.
Beim ersten Sucheinstieg gab's nur ein Suchfenster. Ich habe noch nicht alle mögliche Eingabenoption probiert, aber ich gehe davon aus, dass man dort auch einige Suchoperatoren verwenden kann (s. z.B. diese Seite). - Mindestens das Wildcard-Zeichen "*" funktionierte jetzt.
Dies ist die Seite für die Ergebnisliste mit dem Stichwort "japan*".
Da sind mehr als 100 Ergebnisse angezeigt, oder mindestens so angegeben. Die einzelnen Einträge sind "irgendwie" in einer Reihenfolge angezeigt.
Filter-Funktion
Die Ergebnisse kann man auf dieser Seite weiter filtern. Da sind folgende Kriterien zum Filtern angegeben:
- Datum der Akturlisierung
- Alle
- Letzter Monat
- Letztes Jahr
- Letzte 3 Jahre
- Download-Format
- Alle
- Tabelle
- Dokument
- Bild
- Text
- Archiv
- Sonstiges
- Nutzungsrechte
- Alle
- Kommerzielle Verwendung erlaubt
- Nicht kommerzielle Verwendung erlaubt
- Kostenlos
Metadaten
Schauen wir die Metadaten - Wie sind die einzelnen Datensets beschrieben?
Es sind folgende Punkte zu betrachten:
- Logo vom Anbieter der Daten
- Titel von Datenset
- Zitierquote - wenn vorhanden
- [Eindeutige Kennzeichnung z.B. DOI]
- [Autoren]
- [Lizenz]
- Zeit der Aktualisierung
- Wer die Daten bereitgestellt hat
- [Verfügbare Downloadformate der Anbieter]
- Abgedeckter Zeitraum
- Abgedecktes Gebiet
- [Gemessene Variablen]
- Beschreibung
Laut Google Beschreibung sind die Metadaten automatisch hergestellt. Dabei wird die ursprüngliche Beschreibung vom Datenset-Anbieter verwendet. Die Qualität der Metadaten ist daher nicht einheitlich. Sie hängt vom Anbieter ab...
Man muss halt da hoffen, dass der Anbieter sinnvoll die ursprüngliche Metadaten anlegt.
Was findet man dort?
Google gibt an, wie die Daten im Internet automatisch als solche erkannt werden. (https://developers.google.com/search/docs/data-types/dataset?hl=de#approach)
Wenn das automatische Erkennen nicht funktioniert, kommt es nicht in "Google Dataset Search".
Es sind jedoch recht viele Einträge dort, z.B. "Japan City Systems of the early Meiji era" von Harvard Dataverse oder "Global Map Japan Data : Environmental, Land, Transportation, Population Spatial Data" von Geospatial Information Authority of Japan.
Ich habe auch mit Stichwort "日本" gesucht. Damit kommen auch mehr als 100 Treffer. Darunter wie z.b. "聖徳太子日本国未来記 | 日本古典籍データセット" von ROIS-DS人文学オープンデータ共同利用センター oder "日本 - 粗出生率" von knoema (World Data Atlas).
Im Vergleich zu der anderen Datenbank
Um über die Leistung von "Google Dataset Search" zu überlegen, vergleichen wir "Google Dataset Search" z.B. mit "e-Stat".https://developers.google.com/search/docs/data-types/dataset?hl=de#approach
E-Stat ist eine Datenbank für Statistischen Daten, die von der japanischen Regierung oder öffentlichen Verwaltungsinsitutionen hergestellt sind.
Inhaltlich unterscheiden sie sich dadurch - "Google Dataset Search" nimmt nicht nur Statistiken, sondern Datensätze, und zwar von diversen Anbietern. Von Privaten Person, private Unternehmen bis hin zu Universitäten oder andere Instiutionen. Anderes gesagt, e-Stat hat relativ homogenen Inhalt.
Suchmöglichkeit - Bei e-Stat geht die Suche auf eine tiefere Ebene. Dort wird auch ein Objekt innerhalb einer Statistik gesucht.
Im oberen Beispiel ist das Objekt "ハンバーガー" in unterschiedlichen statistischen Inhalten durchgesucht.
Demgegenüber scheint die Suche bei "Google Dataset Search" nicht so tief zu gehen.
"Google Dataset Search" ist also eher für die Suche nach Datensätze im breiten Spektrum geeignet.
Hier haben wir "Google Dataset Search" ein wenig kennengelernt. Wenn jemand weiter die Erfahrung mit "Google Dataset Search" gemacht hat,sag mir bitte Bescheid - ich würde mich dafür interessieren;)
Kommentare
Kommentar veröffentlichen