Lost on the way to…

OpenRefine

Geschichte

Die Software Freebase Gridworks welche im Jahre 2009 von der Firma Metaweb entwickelt wurde ist der Ursprung des heutigen OpenRefine. Metaweb entwickelte die Software um die Vorbereitung der Daten für den Import in ihre Freebase-Wissensdatenbank, welche auf der Grundlage der Prinzipien des semantischen Webs basierte, zu erleichtern. Google erwarb das Unternehmen im Jahr 2010 und das Projekt wurde in Google Refine umbenannt.

Zwei Jahre später wurde das Projekt wieder in die Opensource Community übergeben und unter dem Namen OpenRefine weitergeführt.

So richtig Fahrt auf nahm das Projekt wieder ab 2017 als die Google News-Initiative USD 100’000.00 zur Verfügung stellte, um die Weiterentwicklung zu ermöglichen. Ende 2019 gewährte die Chan-Zuckerberg-Initiative im Rahmen ihres Programms “Essential Open Source Software for Science” dem Projekt weitere USD 200’000.00. Die Applikation soll auf bigdata ausgerichtet werden.

Zweck

Claim: "A free, open source, powerful tool for working with messy data"

Wie der Claim sagt, ist OpenRefine ein leistungsstarkes Werkzeug zur Bereinigung unordentlicher Daten. Es erfordert keine separaten Kenntnisse einer Programmier- oder Abfragesprache.

Einsatzbereich

  • Fehlerbereinigung / Vereinheitlichung von Daten (Normierung)
  • Datentransformation (von einem Format in ein anderes)
  • Datentransfer (von einem System in ein anderes)
  • Analyse von Daten
  • Anreicherung mit anderen Datensets

OpenRefine hat eine grafische Oberfläche und ist ähnlich wie eine klassische Tabellenverarbeitungssoftware aufgebaut. Die Software dient der Analyse, Bereinigung, Konvertierung (Modellierung) und Anreicherung (Ergänzung von externen Daten aus anderer Quelle z.B. gnd) von Daten.

Normalerweise läuft das Programm lokal auf einem Computer. Es kann jedoch auch über einen Server laufen jedoch hat es keine integrierte Nutzerverwaltung und somit gibt es keinen Schutz, wenn mehrere Personen am gleichen Projekt arbeiten (Organisation ist daher notwendig).

OpenRefine ist keine spezifische Bibliothekssoftware und es gibt daher auch allgemeinere Funktionen die über den Bibliotheks-/Archivbereich hinaus gehen. Somit ist die Anwendercommunity auch grösser.

Anwendungsfelder

  • Bibliothek
  • Archiv
  • Datenjournalismus
  • Bioinformatik (Datensätze über Genom-Frequenzanalysen)
  • u.a.

Dies erklärt auch den Umstand warum die unterstützten Formate umfangreicher und weniger spezifisch sind. Grundsätzlich wird mit generischen Daten gearbeitet und nicht mit Metadatenstandards (Marc21 wird z.B. in MarcXML umgewandelt).

Ich mag den Gedanken das die Software so vielseitig einsetzbar ist. So lässt sich auch gut über den Tellerrand blicken und das Know-how von vielen Disziplinen bündeln und nutzen. Dies geschieht meiner Meinung nach viel zu wenig in der heutigen Welt.

Detour

  • Das Genom, auch Erbgut eines Lebewesens oder Virus, ist die Gesamtheit des materiellen Trägers der vererbbaren Information einer Zelle oder Viruspartikels.

  • Bei der Sequenzanalyse geht es in erster Linie um das schnelle Auffinden von Mustern in Protein- oder DNA-Sequenzen.

  • Die Bioinformatik ist eine interdisziplinäre Wissenschaft, die Probleme aus den Lebenswissenschaften mit theoretischen computergestützten Methoden löst.

Die vollständige Sequenzierung des Genoms bildet die Grundlage für die Erforschung vieler biologischer Prozesse, wie etwa die Möglichkeit, Erbkrankheiten zu erforschen und molekulare Mechanismen der Krebsentstehung besser zu verstehen. Durch Vergleich des menschlichen Erbguts mit dem anderer Lebewesen erhoffen sich Wissenschaftler zudem weitere Erkenntnisse über den Ursprung bestimmter Krankheiten und neuer Therapiemöglichkeiten.

Mein Kopf ist nach dem heutigen Ausflug gut gefüllt mit “messy data”… vielleicht sollte ich auch OpenRefine installieren…