Praktisch alle Nutzerinnen und Nutzer des Internet nutzen mindestens täglich eine Suchmaschine. Natürlich wissen fast alle, was Suchmaschinen-Konzerne und Social-Media-Unternehmen mit den persönlichen Daten machen, die sie ihnen überlassen. Aber das ist eben der Preis, den sie für Informationen zahlen müssen, im Beruf wie im Privatleben.
Wirklich?

Das Konzept für die neue dezentrale Suchmaschine „WebEngine“ des Lehrgebiets Kommunikationsnetze der FernUniversität in Hagen lässt ihre Daten dort, wo sie hingehören: auf ihrem eigenen Rechner. Sie können sie freigeben, verändern und richtig löschen. Trotzdem genießen sie alle Vorteile herkömmlicher Suchmaschinen und sozialer Medien.

„Wenn wir heute Daten ins Internet stellen, geben wir sie aus der Hand. Wir können sie nicht mehr zurückbekommen und nicht entscheiden, was mit ihnen weiter passiert.“ Der Hagener Informatik-Professor Dr. Herwig Unger spricht aus, was vielen Internet-Nutzerinnen und -Nutzen zunehmend „Bauchschmerzen“ bereitet. Als Alternative für das Datenhandling im Netz von morgen hat der Leiter des Lehrgebiets Kommunikationsnetze an der FernUniversität in Hagen zusammen mit Privatdozent Dr. Mario Kubek den Prototypen einer dezentralen Suchmaschine entwickelt und erfolgreich getestet: die Web-Engine. „Sieht so aus wie Google, ist aber ganz und gar nicht Google“, charakterisiert Prof. Unger die Entwicklung.

Bereits seit 1998 arbeitet Herwig Unger – damals unter anderem mit Kollegen aus Kanada und Australien – an dezentralen Systemlösungen, die die meisten Nutzerinnen und Nutzer als P2P- oder Filesharing-Systeme kennen. Beim Filesharing geht es um das Tauschen von Dateien. Weil sich beim Tausch von urheberrechtlich geschützten Dateien jedoch rechtliche Probleme ergeben können, war Filesharing lange Zeit verpönt, verboten und mit Abmahnungen bedroht. „Heute ist es dagegen auch ein völlig legales ‚Kommunikationsprinzip der Zukunft‘, das Netzen eine schnelle Anpassung an neue Nutzererfordernisse erlaubt", so Unger.

Datensuche im Internet verbessern

Ein glücklicher Umstand hat ihn und Dr. Mario Kubek 2010 zusammengeführt. Kubek ist Spezialist für die Verarbeitung natürlicher Sprache, die nur scheinbar nichts mit Computernetzen gemeinsam hat. „Es ist notwendig, über den eigenen Tellerrand zu schauen und sich nicht nur auf ein Fachgebiet zu konzentrieren“ unterstreicht er.

Schnell war ihnen klar, dass die Suche nach Daten im Internet die Herausforderung war, die beide annehmen und mit neuen Lösungen verbessern wollten. Beide stört, dass immer mehr und immer größere Firmen die Datenhoheit im Internet haben und für die Nutzerinnen und Nutzer noch nicht einmal mehr ersichtlich ist, was wann und wo mit ihren Daten passiert. Google, Facebook und andere Unternehmen werden von vielen als „Datenkraken“ gesehen, die längst die Grenzen des Netzes verlassen haben und selbst sensible Teile des Privatlebens eines jeden von uns durchdringen.

Daten auf zentralen Unternehmensservern

Unger: „Nur um die Sichtbarkeit und Auffindbarkeit von Informationen zu erhöhen, konzentrieren wir unsere Daten auf zentralen Servern, die ihrerseits in der Hand großer Unternehmen sind – und damit unkontrollierbar und natürlich auch angreifbar. Selbst für Forschungszwecke ist es heute fast unmöglich, Informationen von diesen Einrichtungen über die Verwaltung dieser Daten zu bekommen.“ Der Grund für den Erfolg dieser Firmen ist einfach: Im Internet gibt es keine „Wegweiser“: Jede Information ist an einem Ort gespeichert, der mit ihrem Inhalt nichts zu tun hat.

Die Datenbanken großer Suchmaschinen oder sozialer Netzwerke stellen genau diesen fehlenden Zusammenhang her, auch für komplexe Anfragen. „Wir sind daran gewöhnt, alles was wir wissen wollen, mit Schlüsselworten für Anfragen zu formulieren“, so die beiden Forscher. „Eigentlich ist das ein Weg, den im täglichen Leben oder in Bibliotheken niemand beschreiten würde.“ Menschen denken normalerweise in Kategorien und hierarchisch. Sucht man beispielsweise Informationen zu „Eulerkreisen“ (einem Begriff aus der mathematischen Graphentheorie), wird man zunächst in eine mathematische Bibliothek gehen und dann vielleicht in eine Spezialabteilung zu Graphen. Dieses Vorgehen funktionierte jedoch bislang im Internet nicht.

Webdokumente automatisch kategorisieren

2015 hatten Unger und Kubek jedoch die entscheidende Idee, wie man auch Webdokumente automatisch, ohne jedes menschliche Zutun kategorisieren kann. Dafür muss man wissen, wie stark verschiedene Wörter zueinander in Relation stehen. Dies kann man wie beim Lesen aus vielen Dokumenten ableiten. Analog zu physikalischen „Massenschwerpunkten“ konnten Unger und Kubek „Bedeutungsschwerpunkte“ von Dokumentinhalten als Textkategorien definieren. Dennoch war der Weg zur dezentralen Suchmaschine noch sehr weit. Die Struktur des Web musste parallel zu dem arbeitenden System erweitert werden. Hierzu wurde die WebEngine geschaffen, die ein integraler Teil eines jeden Webservers sein kann, ohne diesen bei der Arbeit zu behindern.

Die WebEngine kategorisiert lokal die angebotenen Webseiten und verbindet sich mit anderen Webservern, auf denen ebenfalls diese Software läuft, ohne dass diese Prozesse für irgendjemand überschaubar oder kontrollierbar sind. Im World Wide Web wird schließlich ein dezentraler Assoziativspeicher aufgebaut, in dem Such-Kategorien und zu diesen passende Webseiten auf einem Teil der Webserver verwaltet werden, die selbst Daten anbieten. Größe, Struktur, Ort und Fehlertoleranz werden dabei vom System durch lokal, also auf ihren Rechnern, arbeitende Verfahren gemanagt.

Komponenten wirken zusammen

„So ein System heißt selbstorganisierend“, erläutert Unger: Viele einzelne Partikel, Individuen und Komponenten organisieren selbst ein organisches Zusammenwirken aller Komponenten und können Strukturen bilden – wie in einem Ameisenhaufen. Dazu braucht es natürlich neben der Verarbeitung der Inhalte der Webdokumente eine gehörige Portion Wissen zu Computernetzwerken und den entsprechenden Protokollen. Kommt beides zusammen, kann man eine neue, dezentral arbeitende Suchmaschine entwerfen. Sie gibt den Nutzerinnen und Nutzern die Hoheit über ihre Daten zurück, weil diese nur lokal abgespeichert werden.

Ca. 50.000 Zeilen reiner Programmkode mussten hierzu neben der Nutzung vieler Bibliotheken in Java programmiert werden. Unger: „Auch hierbei haben Mario Kubek und ich Hand in Hand gearbeitet und viele Wochen miteinander geknobelt.“ Unger zeichnete für die Algorithmen verantwortlich, Kubeks Kompetenz war es, daraus eine Spezifikation zu erarbeiten, in der er mit viel Gefühl für den Computer die vielen Parameter entsprechend setzte.

Suchergebnisse hundertprozentig aktuell

Zusammen mit der hundertprozentigen Aktualität der Suchergebnisse können viele neue Features die Nutzerinnen und Nutzer überzeugen, neben der Bewertung der Qualität der eingegebenen Suchworte vor allem die Suche mit Bedeutungsschwerpunkten. Damit werden vor allem die Dokumente gefunden, die einen wirklichen inhaltlichen Beitrag zum Thema haben. Das grenzt zum einen die Menge der Suchergebnisse deutlich ein, zum anderen findet man auch diejenigen relevanten Dokumente, die statt der Suchterme wie z.B. „Vogelgrippe“ oder „Virus“ andere, aber dennoch zum Thema gehörende enthalten, etwa „H5N1“.

Unger und Kubek sind sich einig: „Wir haben noch viele Ideen, mit denen wir noch lange nicht am Ende sind.“

Unterstützung aus Bangkok

Ohne die Zusammenarbeit mit Ungers permanenter Kooperationspartnerin, der King Mongkut’s University of Technology North Bangkok in Thailand, gäbe es die WebEngine heute nicht: Programmierung, Test und Integration aller Komponenten waren eine Aufgabe, die die beiden Forscher alleine kaum hätten bewältigen können. Fünf Kolleginnen, Kollegen und Studierende aus Bangkok halfen ein Jahr lang im Rahmen der Kooperation hierbei mit.

Quelle: FernUniversität in Hagen

Online

Aktuell sind 1812 Gäste und keine Mitglieder online

Click to listen highlighted text! Powered By GSpeech