Mölck, Letitia-Venetia: Möglichkeiten zur Unterstützung der automatischen Spracherkennung in wissenschaftlichen Videos mit Hilfe von Fachterminologie

Mölck, Letitia-Venetia: Möglichkeiten zur Unterstützung der automatischen Spracherkennung in wissenschaftlichen Videos mit Hilfe von Fachterminologie

Abstract:

Automatische Spracherkennungssysteme (Automatic Speech Recognition – ASR) können derzeit nicht alle Wörter korrekt erkennen und daher noch keine guten Transkriptionen erstellen. Die Qualität der automatischen Spracherkennung wird von vielen Faktoren beeinflusst. Einer davon ist das Vokabular. Je vielfältiger und komplexer die Themen, desto größer die Anzahl der fachspezifischen Wörter ist, die erkannt werden müssen, desto schwieriger ist die Erkennungsaufgabe und desto schlechter sind die Transkriptionsergebnisse. Die Sprachmodelle von automatischen Spracherkennungssystemen müssen durch Training angepasst werden, damit sie auch bei Gebieten mit speziellem Vokabular gute Resultate erzielen können.

In dieser Arbeit wird untersucht, ob der prozentuale Anteil der korrekt erkannten Wörter durch Training des Sprachmodells der automatischen Spracherkennung mit fachspezifischer Terminologie wirksam gesteigert werden kann. Anhand von Ergebnissen der durchgeführten Experimente wird dargelegt, welche Anzahl und Art von Daten benötigt wird, um den Prozentsatz der falsch erkannten Wörter zu senken. Die Ergebnisse der Domänen-Adaption bilden die Basis für den anschließenden Vergleich des fachspezifischen Vokabulars in Vorlesungsvideos und wissenschaftlichen Publikationen, um die Unterschiede hinsichtlich der verwendeten Fachsprache aufzuzeigen. Grundlage und Ausgangspunkt für die gesamte Untersuchung stellt die Erkennung der Fachterminologie und ihre Unterscheidung von der Allgemeinsprache dar.

Zum Volltext.

Frag doch einfach Wiri!

Talk to Wiri, obviously named after “Wiki” with an “r”, and nothing else!

Obviously. Und hinter Wiri stecken Wikidata und Magnus Manske. Das sollte man sich unbedingt mal ansehen.

Beispielfragen:

  • What is information?
  • Who is Ranganathan?
  • Who are the children of Thomas Mann?
  • Who are you?
  • Where is Cuxhaven?
  • Where is Hochschule Hannover?
  • Where is Waldo?

Hier geht’s zu Wiri. Bitte selbst testen, der Screencast ist nämlich leider ohne Ton.

Siri und die Bibliotheken

Mark Buzinkay überlegt, welche Folgen die Spracherkennungssoftware Siri für Bibliotheken haben könnte:

Eine der häufigsten und zeitaufwändigsten Aufgaben eines Bibliotheksnutzers ist das Recherchieren im Bibliotheksbestand. Recherchen in diesen Oberflächen (Web-Opac, Primo, etc.) sind nicht trivial, so dass Bibliotheken gar Nutzerschulungen anbieten. Nun kommt Siri und empfängt meinen mündlichen Befehl, die wichtigsten 10 Titel zum Thema “Spracherkennungssoftware” zu entlehnen. Anstatt also selbst in die Tasten zu klopfen, Literaturverzeichnisse, Rezensionen etc. durchzukämmen, um nicht nur Titel sondern auch deren Bedeutung in der wissenschaftlichen Diskussion festzustellen, bedient sich Siri entsprechender Partnerdienste, die über entsprechende Daten verfügen.

Mehr im MBI-Blog.