28.08. 2013

Wissenschaftler entwickeln neues System, um Computern das Erlernen menschlicher Sprache zu erleichtern

Seit mehr als einem Jahrzehnt haben Informatiker und Linguisten versucht, Computern menschliche Sprachen mittels einer semantischen Programmierungssoftware beizubringen. Semantik ist die Theorie oder Wissenschaft von der Bedeutung der Zeichen, in diesem Falle der Wörter und Phrasen.

Katrin Erk, eine Sprachforscherin an der University of Texas at Austin (USA) hat mit Supercomputern gearbeitet, um neue Methoden zu entwickeln, die Computern dabei helfen sollen, menschlische Sprachen zu erlernen.

Wissenschaftler codierten bisher die menschliche Logik oder entschlüsselten Wörterbücher, aber Erk probierte einen neuen Ansatz aus: Sie lässt ihre Computer eine große Bandbreite an Texten analysieren, welche als Spiegelbild des menschlichen Wissens fungieren und eine Karte von Beziehungen kreiert, in der die impliziten Verbindungen der Wörter dargestellt werden.

Diese Technik erfordert eine große Anzahl an Wörtern und Texten, um das Modell vollständig zu entwickeln und die intuitive Fähigkeit der Unterscheidung von Wortbedeutungen zu erstellen.

Erk sagte, dass eine Textsammlung von “mindestens 1000 Millionen Worte für diese Art von Forschung bereit gestellt werden müsste”.

Zunächst führte sie ihre Forschung an Desktop-Computern durch, ersetzte diese aber später durch Computersysteme. Mit der Hilfe von Hadoop-optimierten Subsystemen konnten die Forscher den Umfang ihrer Tests deutlich erweitern.

Hadoop ist eine Software-Bibliothek, welche Rahmenbedingungen für die verteilte Verarbeitung großer Datenmengen über Gruppen von Computern ermöglicht, indem sie einfache Programmierungsmodelle benutzen.

Erk erklärt, dass Menschen entweder denken, dass die Bedeutung von Wörtern weit voneinander entfernt sei (z. B. jmd. aufhalten oder sich in einem Raum aufhalten) oder nah aneinander liege (z.B. Strafanzeigen und Anklagen). Daher visualisieren Menschen unterschiedliche Bedeutungen von Wörtern als Punkte im Raum.

Die Bedeutung eines Wortes in einem bestimmten Kontext ist ein Punkt in diesem Raum. Es besteht keine Notwendigkeit für Menschen zu erwähnen, wie viele Bedeutungen ein Wort hat, sondern sie wählen ein Wort aus, welches nah an der Bedeutung der Nutzung anderer Worte im Satz liegt, aber weit genug von anderen Bedeutungen entfernt ist.

Wie bereits in dem vorhergehenden Artikel Bedeutet die Einführung des Semantischen Webs eine Verbesserung der maschinellen Übersetzung? erwähnt wurde, haben Computer bisher nur erkannt, wie man etwas sagt (Syntax), aber konnten nicht die Bedeutung der Wörter herausfiltern (Semantik). Wenn wir eine Suchmaschine benutzen, werden tausende von Dokumenten gescannt, die die Wörter oder Sätze enthalten, nach denen gesucht wird. Dieser Prozess der Wortübereinstimmung ist eine Suche auf dem niedrigen Niveau.

Wenn Computer allerdings die tatsächliche Bedeutung der Worte, die wir verwenden, verstehen könnten, wäre dies nicht nur für Suchmaschinen vorteilhaft, aber auch für die maschinelle Übersetzung. Computer, welche mit dem Semantischen Web arbeiten, ein Web, was in der Lage ist, die Relationen der Dinge zueinander zu verbinden, wäre in der Lage, den Kontext aus den Metadaten einer Webseite zu erkennen und dann würde die korrekte maschinelle Übersetzungsmaschine dafür ausgewählt werden basierend auf dem Markup.

Wir können nur erahnen, welche Türen sich mit dieser Innovation öffnen werden. Wie könnte das semantische Verständnis von Sprachen in Computern Ihr Leben bereichern? Lassen Sie es uns wissen!