Die Forschungsgruppe Systemintegration am Institut für Informationssysteme (iisys) der Hochschule Hof beschäftigt sich mit Möglichkeiten, Informationssysteme auf technischer Ebene miteinander zu vernetzen sowie die Inhalte der verschiedenen Systeme in Beziehung zu setzen. Als Teil des Projekts „Digitale Transformation des Mittelstands mit künstlicher Intelligenz (DAMMIT)“ forschen die Mitarbeiterinnen und Mitarbeiter um Prof. Dr. René Peinl, Forschungsgruppenleiter und wissenschaftlicher Institutsleiter, auch zu den Themen Spracherkennung und Sprachsynthese. Der von der Forschungsgruppe entwickelte Datensatz für Sprachsynthese kommt mittlerweile bei Nvidia, einem der fünf wichtigsten Player weltweit im Bereich der Künstlichen Intelligenz (KI), zum Einsatz.
Wir gratulieren Prof. Peinl und seinen Mitarbeiterinnen und Mitarbeitern zu diesem Erfolg und haben bei dieser Gelegenheit mit ihm über die Forschungsvorhaben rund um das Thema Spracherkennung und -synthese gesprochen.
Was bedeutet es für die Forschung an der Hochschule Hof, dass Nvidia den „Hofer“ Datensatz benutzt?
Es ist eine tolle Anerkennung zu sehen, dass eines der fünf wichtigsten KI Unternehmen weltweit mit unseren Forschungsergebnissen arbeitet.
Können Sie nachvollziehen, wie es dazu kam?
Im Detail nicht, aber unsere Forschung ist bei Nvidia schon seit längerem auf dem Radar. Einer meiner Mitarbeiter hat bereits ein Jobangebot bei Nvidia bekommen. Vermutlich haben sie unsere Veröffentlichung (wissenschaftlicher Aufsatz) gelesen.
Darf diesen Datensatz jeder ungefragt nutzen?
Ja, unser Datensatz basiert auf öffentlichen Daten von Librivox und wir haben unsere „veredelten“ Daten auch wieder unter freier Lizenz zur Wiederverwendung im Internet bereitgestellt. Open Source Software setzt sich ja auch jenseits der KI mittlerweile immer stärker durch, sei es Linux, Android, VLC Media Player, LibreOffice oder Blender. Bei KI kommt noch dazu, dass wir auch Open Data und veröffentlichte vortrainierte KI-Modelle benötigen. Hier gibt es ebenfalls sehr gute Fortschritte. Bei der Spracherkennung verwenden wir z.B. ein Modell, bei dem Google die Software beisteuert, Facebook die Sprachdaten aufbereitet und Nvidia das Modell trainiert, welches wir wiederum weiter verfeinern. „Standing on the shoulder of giants“ ist ein gängiger Slogan, der diese Situation recht gut beschreibt.
Wie konkret setzt Nvidia die Daten ein und was soll damit erreicht werden?
Nvidia hat im Gegensatz zu uns ein so genanntes Multi-Speaker Modell für Sprachsynthese erstellt. Dafür werden Sprachdaten von mehreren Personen (nicht zu viele) und dafür mit nicht ganz so vielen Stunden pro Person verwendet. Insgesamt braucht man mindestens 100h. Das Modell bekommt neben den Sprachdaten noch eine Identifikationsnummer pro Sprecher bzw. Sprecherin. Anschließend kann es dann mit unterschiedlichen Stimmen sprechen, indem man neben dem Text zum „Vorlesen“ auch noch die Sprecher-ID eingibt. Häufig sind jedoch die Multi-Speaker Modelle von der Qualität her schlechter als Modelle, die mit vielen Stunden (>25h) eines einzigen Sprechers trainiert wurden. Das ist leider auch hier so, so dass die Ergebnisse von Nvidia nicht mit unseren Stimmen Bernd und Hokuspokus mithalten können.
Seit wann wird in Hof im Bereich Sprachsynthese geforscht?
Wir beschäftigen uns seit 2019 mit Sprachsynthese. Den Anstoß hat die Ansiedelung des Startups ahearo am digitalen Gründerzentrum Einstein1 gegeben.
Wie kann die Hochschule von diesem Forschungserfolg profitieren?
Es verhilft der Forschung der Hochschule zu mehr internationaler Sichtbarkeit.
Wie ist der Stand der Forschung am iisys? Was ist geplant? Gibt es ein großes Ziel, das Sie in diesem Bereich mit Ihrer Forschung verfolgen?
Das große Ziel ist es, einen digitalen Sprachassistenten zu entwickeln, der ohne Datenabfluss zu Servern in der Cloud, insbesondere denen von globalen Konzernen, arbeitet und sich für den Unternehmenseinsatz eignet. Dafür braucht man Spracherkennung, Textverständnis und Sprachsynthese (Text-to-Speech) und an allen drei Teilen forschen wir intensiv.
Wir danken Prof. Peinl für das Gespräch!