Skip to content

Speech-to-Text

Im Zuge der Digitalisierungsoffensive der ORF Technik werden Spracherkennungs-Algorithmen auf Basis von Künstlicher Intelligenz getestet und entsprechende Anwendungen in der Contentproduktion implementiert.
© Ursula Hummel

Vom Mikrofon zum Transkript – KI macht es möglich

Die ORF-Angebote in den Mediengattungen Fernsehen, Radio und Internet erzielen jeweils Top-Quoten und sind Teil des Alltags für die überwiegende Anzahl der in Österreich lebenden Personen. Allein im Internet bedeutet das im Schnitt rund 128,24 Mio. Visits pro Monat und 51 Millionen Video-Brutto-Views pro Monat. Im Sinne der ständigen Verbesserung ergibt sich daraus der Auftrag, zusätzliche Funktionen zur Steigerung von Komfort, Service und Zugänglichkeit zu entwickeln und für die Endkunden anzubieten.

Vielfältige Einsatzmöglichkeiten

Spricht man von „Artificial Intelligence“ im Kontext von ORF-Anwendungen, dann geht es dabei nicht um automatisiert erstellte Beiträge oder ein Bewertungsschema für redaktionelle Inhalte. Vielmehr steht die praktische Nützlichkeit im Vordergrund, wie dies vor allem bei den vielfältigen Anwendungsmöglichkeiten von „Speech-to-Text“-Algorithmen sichtbar wird. Ehemals als bloßes „Diktiergerät“ zur Übertragung von gesprochenem Wort in Briefe verwendet, erschließen sich durch moderne Algorithmen zahlreiche Anwendungsfälle, die sich ganz besonders für den Einsatz in der Medienproduktion und im Angebotskonzept für Sendungen und Beiträge in TV, Radio und Online eignen. Spracherkennung wird bei Live-Programmen zur Erkennung der nachgesprochenen Tonspuren für die Untertitelung eingesetzt, für die Umsetzung von Audiomaterial in lesbare Transkripte zur schnelleren Recherche sowie zur automatisierten Auftrennung und Beschlagwortung von Sendungen und Beiträgen. Die Technik bildet dabei ORF-intern das Kompetenzzentrum für „Artificial Intelligence“-Projekte des multimedialen Newsrooms, der Sendungsredaktionen, des multimedialen Archivs und der Redaktionen für Untertitelung und Barrierefreiheit. Im technologischen Umfeld wurden dafür Kooperationen mit Joanneum Research und über die ARD auch mit den Fraunhofer Instituten IAIS und IDMT aufgesetzt. Produkte der Firmen Aiconix, Nuance und Speechmatics werden getestet bzw. sind auch schon im Regelbetrieb in Verwendung.

Vom Rohmaterial bis ins Archiv

Als konkretes Beispiel für die erhebliche Bedeutung der automatischen Spracherkennung kann die Integration dieser Funktionalität in die Produktionssysteme der ORF-Radiowellen dienen: Bisher werden mitunter komplette Aufnahmen von Interviews und Pressekonferenzen händisch abgetippt, dann werden im Text-Dokument die für einen Beitrag relevanten Passagen herausgesucht und in eine Abfolge gebracht. Schließlich erfolgen Audio-Schnitt und Montage anhand des Manuskripts in der Schnittsoftware. Durch die Integration einer „Automated Speech Recognition Engine“ direkt in diese Schnittsoftware kann nun nicht nur mit einem Mausklick das Audio in Text umgewandelt werden, sondern man kann dann auch direkt im Textdokument das Tonmaterial „Schneiden“, indem man die entsprechenden Sätze markiert. Dies spart nicht nur die Zeit für das manuelle Abtippen, sondern eröffnet Redakteurinnen und Redakteuren auch ohne spezielles Audio-Training die Möglichkeit, einen Radiobeitrag herzustellen. Für einen multimedialen Newsroom bildet dies natürlich eine besonders wichtige und interessante Funktion ab. Zusätzlich können die Textdateien auch mit der Tonaufnahme gemeinsam im Archiv abgelegt werden, wodurch eine Volltext-Suche in den Audio-Inhalten möglich wird. Auch dies ist ein unschätzbarer Vorteil für die volldigitale Medienproduktion.

Pfad in die Zukunft

Die automatische Spracherkennung funktioniert derzeit schon ausgezeichnet bei aufgenommenen Tonspuren und für Anwendungen, die nicht „Live“ ausgestrahlt werden. Durch die Verzögerungszeiten der Berechnung, durch Schwierigkeiten mit Dialekten und Nebengeräuschen und bei der korrekten Interpunktion sowie bei Eigennamen und Spezialvokabular ist eine vollautomatische Live-Untertitelung aller Tonspuren derzeit noch nicht möglich. Die Fehlerquote wäre hier noch zu hoch, um das produktiv in Betrieb zu nehmen.

Die  Künstliche Intelligenz lernt aber ständig weiter, und so ist es durchaus vorstellbar, dass schon in wenigen Jahren auch komplexe Tonspuren in Echtzeit zuverlässig in Text umgewandelt werden können.

Das besonders Elegante an AI-Lösungen „As a Service“ ist, dass solche erheblichen Verbesserungen ohne weitere Anpassungen und Integrationen sofort für den echten Betrieb nutzbar sind.

Gefällt Ihnen der Beitrag?
Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on telegram
Telegram
Share on whatsapp
WhatsApp
Share on email
Email