KI für besseres Textverständnis von Suchmaschinen

DATEV forscht im Projekt SEMIARID an semantischer Suche

Nürnberg, 13. August 2021: Was große Suchmaschinen heute schon recht gut beherrschen, gestaltet sich im unternehmens- oder Community-internen Umfeld bislang schwierig: Mit Anfragen in natürlicher Sprache durch Kontextsensitivität schnell und gezielt zu relevanten Suchergebnissen zu gelangen. Gerade in fachspezifischen Kontexten tritt die Problematik verstärkt zutage, denn um möglichst treffsicher zu werden, benötigen die Suchhelfer bislang Unmengen an Daten. In einem überschaubaren Fachumfeld ist eine solche Datenmenge aber nicht vorhanden. Im Rahmen des vom Bayerischen Staatsministerium für Wirtschaft, Landesentwicklung und Energie geförderten Forschungsprojekts SEMIARID suchen DATEV-Spezialisten gemeinsam mit Partnern deshalb nach neuen Wegen, Suchmaschinen mit Hilfe von Künstlicher Intelligenz (KI) das Verstehen semantischer Zusammenhänge beizubringen.

PI_SEMIARID
Das Projekt SEMIARID wird gefördert vom Bayrischen Staatsministerium für Wirtschaft, Landesentwicklung und Energie.

Suchmaschinen, die heute bereits eine sehr effiziente Suche ermöglichen, basieren auf sogenannten Transformer-Netzwerken. Sie gehören zur Gruppe der Deep Learning Verfahren, einer Königsdisziplin im Bereich der KI. In allgemeinen Suchmaschinen, die von Millionen Anwendern genutzt werden, sind genug Daten vorhanden, um solche Transformer-Netzwerke zu erzeugen. Dagegen sind die typischen Datenbestände in unternehmensinternen Suchumgebungen deutlich kleiner und können außerdem aufgrund hoher Anforderungen an Datenschutz und Vertraulichkeit oft nicht für statistische Auswertungen verwendet werden. Da Transformer-Netzwerke unter solchen Bedingungen nicht trainiert werden können, dominieren in diesem Bereich nach wie vor auf Stichwörtern basierende Verfahren. Diese sind jedoch nicht in der Lage komplexe sprachliche Zusammenhänge zu erfassen und liefern daher hauptsächlich dann gute Ergebnisse, wenn eine konkrete, wörtliche Übereinstimmung der Suchbegriffe mit den Zielinformationen vorliegt.

Für gutes Kontextverständnis auch mit wenig Trainingsdaten

Abhilfe für dieses Problem will die von DATEV gemeinsam mit der Intrafind Software AG und der TH Deggendorf ins Leben gerufene Forschungsinitiative SEMIARID schaffen. Im Rahmen des auf drei Jahre angelegten, vom Bayerischen Staatsministerium für Wirtschaft, Landesentwicklung und Energie geförderten Projekts entwickeln die Partner eine Suchmaschinentechnologie, die hohen Standards an Datenschutz und Datensicherheit genügt und dennoch die Bedeutung einer Suchanfrage erfassen und eine hohe Treffsicherheit bei den Suchergebnissen erzielen kann.

Ausgangsbasis dafür sind ebenfalls Transformer-Netzwerke, die aber durch spezifische Anpassungen und Erweiterungen so angepasst werden, dass sie auch auf kleineren Dokumentenbeständen funktionieren. Außerdem wird auch vorliegendes Expertenwissen in die KI eingeflochten, um benötigte Menge an Trainingsdaten weiter zu reduzieren. Die daraus entstehenden Verbesserungen haben auch einen direkten Mehrwert für DATEV-Anwenderinnen und -Anwender: Sie fließen in DATEV Suchanwendungen wie etwa bei der Datenbank für Fach- und Serviceinformationen LEXinform oder der Online-Plattform SmartExperts ein.

Pressekontakt

DATEV eG

Benedikt Leder
Telefon +49 911 319-51221
benedikt.leder@datev.de
twitter: @DATEV_Sprecher

Sie Verwenden einen veralteten Browser oder den IE11 im Kompatiblitätsmodus. Bitte deaktivieren Sie diesen Modus oder nutzen Sie einen anderen Browser!