Finanzdienstleister und große Konzerne stehen vor dem Problem, dass sie eine ungeheure Anzahl von Verträgen überblicken und managen müssen. Neue gesetzliche Vorgaben können dazu führen, dass man beispielsweise sämtliche Leasingverträge auf gewisse Aspekte hin durchforsten muss – bei einem Bestand von zehntausenden Dokumenten kann das Dutzende Juristen über Monate beschäftigen.

Repetitive Arbeit an stark formalisierten Texten – das klingt nach einer Aufgabe für Artificial Intelligence (AI). Tatsächlich wird einer automatisierten Vertragsanalyse hohes Einsparungspotenzial zugestanden. Doch sobald man es mit einer Reihe unterschiedlicher Vertragstypen und nicht Standardisierten Texten zu tun hat, wird die Sache schwieriger. Ein Ansatz, der in derartigen Situationen Abhilfe schaffen will, kommt vom Wiener Entwickler Cortical. Gründer Francisco Webber und sein Team arbeiten an einer ganz neuen Art der automatisierten Textanalyse. Diese bedient sich nicht konventioneller und rechenaufwendiger Machine-Learning-Algorithmen, die den größten Teil der derzeitigen AI-Entwicklungen ausmachen. Dennoch soll das Werkzeug ungleich flexibler einsetzbar sein. Das britische, auf Bereiche der Digitalisierung spezialisierte Beratungsunternehmen Ovum hat die Vertragsanalyse von Cortical kürzlich in einem eigenen Bericht hervorgehoben.

Kurze Trainsingszeiten

"Der klassische Machine-Learning-Ansatz lebt davon, dass man eine hohe Anzahl von zu verarbeitenden Daten hat. Dienstleister annotieren tausende Verträge, um einen Algorithmus für einen konkreten Vertragstypus zu trainieren und anbieten zu können. Mit unserem Werkzeug können dagegen die Anwender ihre eigene Lösung trainieren, um relevante Informationen aus Verträgen zu extrahieren", sagt Webber. "Man beginnt, indem man in den ersten zehn Verträgen die relevanten Bereiche – etwa Vertragspartner, Gerichtsstand oder bestimmte Klauseln – markiert. Die nächsten Extraktionen kann das System bereits allein durchführen. Zuerst sind vielleicht noch einige Korrekturen nötig. Nach 150 Beispielen wird die Genauigkeit aber sehr gut sein." Bei weiteren Vertragstypen beginnt man die Prozedur von vorn.

Möglich werden diese kurzen Trainingszeiten, weil der Ansatz anstelle von formaler Mustererkennung und statistischen Modellen die tatsächlichen Bedeutungen von Wörtern und Sätzen in den Vordergrund stellt. Auf Basis einschlägiger Lehrbücher und Enzyklopädien werden Wörtern Kontexte zugeordnet, in denen sie vorkommen können. Mit diesem semantischen "Wissen" im Hintergrund wird das System auf die konkrete Anwendung hintrainiert.

Die Orgel ist kein Organ

Die vorkommenden Kontexte werden im Zuge der Dokumentenanalyse gegeneinander abgeglichen. "Das englische Wort ,organ' kann ein Organ im Körper oder die Orgel, ein Musikinstrument, bezeichnen", veranschaulicht Webber. "Wenn in einem Satz mit ,organ' auch ,piano' vorkommt, ist es unwahrscheinlich, dass es um Biologie geht." Nach diesem Prinzip werden "Fingerprints" von Sätzen und ganzen Texten erzeugt. Bedeutungsüberlappungen werden bevorzugt, unwahrscheinliche Kontexte herausgefiltert. Nach diesem Prinzip ist es dann nicht mehr wichtig, wie ein Sachverhalt formuliert ist. Das System erkennt, dass die Phrasen "den Vertrag unterzeichnen" und "ein Geschäft zum Abschluss bringen" dasselbe meinen, auch wenn ganz unterschiedliche Begriffe verwendet werden. "Ohne die Fingerprints selbst zu kennen, wird für die Nutzer nachvollziehbar, warum ein Dokument ausgewählt wurde und wo sich die Anfrage mit dem Dokument überlappt", sagt Webber.

Der Entwickler betont, dass diese Art der Textbetrachtung sehr nahe an jenen Prinzipien liegt, derer sich auch das menschliche Gehirn bedient. Er beruft sich dabei auf die Arbeiten des US-Unternehmers Jeff Hawkins, der auf Basis neurowissenschaftlicher Erkenntnisse eine Theorie von Gedächtnismuster und Informationsverarbeitung in der Großhirnrinde "auf systemischer Ebene" etabliert hat, die er im Unternehmen Numenta weiterentwickelt. Webber kann sich für die Textanalyse von Cortical viele weitere Anwendungsbereiche vorstellen. "Das ist nur eine Definitionsfrage. Man kann das System genauso auf Beipackzettel für Medikamente anwenden." (pum, 27.4.2019)