Wie künstliche Intelligenz die Spracherkennung revolutioniert

Till Striegel11. JULI 2024
Eine Frau hält ein Smartphone vor ihrem Mund.

stock.adobe.com/brizmaker

Fragst du dich, warum Sprachassistenten wie Siri, Alexa und Google Assistant dich immer besser verstehen? In diesem Beitrag erklären wir, wie künstliche Intelligenz (KI) die Spracherkennung verbessert.

Zusammenfassung: So verbessert KI Sprachassistenten

Wie KI die Spracherkennung in smarten Assistenten verbessert – das Wichtigste im Überblick:

  • Moderne Spracherkennung nutzt KI, um gesprochene Sprache zu erkennen und in Text oder Befehle umzuwandeln.
  • Sprache wird aufgenommen, in sogenannte Spektrogramme umgewandelt und von neuronalen Netzen analysiert.
  • Aktivierung durch „(Hey) Siri“, „Alexa“ oder „Ok/Hey Google“. Beispiele: Wecker stellen, Licht einschalten, Timer setzen.
  • Spracherkennung ermöglicht das Diktieren von Texten, praktisch für Nachrichten und längere Texte.
  • Google Assistant bietet den Dolmetschermodus für Übersetzungen zwischen über 40 Sprachen, Siri kann ebenfalls Übersetzungen vornehmen.
  • Erkennen und Unterscheiden von Sprechern für personalisierte Inhalte.
  • KI-Spracherkennung erreicht eine niedrige Wortfehlerrate (WER), vergleichbar mit menschlicher Leistung.
  • Fortschritte in der direkten Sprachverarbeitung könnten die Reaktionsgeschwindigkeit von Sprachassistenten verbessern und Nuancen erfassen.

Einfach erklärt: So funktioniert Spracherkennung mit KI

Spracherkennung ist die Fähigkeit eines Computersystems, gesprochene Sprache zu erkennen, zu verarbeiten und in Text oder Befehle umzuwandeln.

Eine Frau spricht mit einem Smart-Speaker.

stock.adobe.com/Proxima studio

So funktioniert moderne Spracherkennung mit KI:

  1. Sprache wird mit einem Mikrofon aufgenommen.
  2. Die Tonaufnahme wird in kurze Abschnitte aufgeteilt, zum Beispiel 30 Sekunden.
  3. Jeder Audioabschnitt wird in ein Log-Mel-Spektrogramm umgewandelt. Das ist eine grafische Darstellung von Tönen, die Frequenzen so abbildet, wie das menschliche Gehör sie wahrnimmt.
  4. Das Spektrogramm wird als Matrix von Zahlen kodiert und in ein neuronales Netz eingespeist.
  5. Das Netz wurde mit einem großen Datenset aus Spektrogrammen und Transkriptionen trainiert. Es findet nun Muster, die zu bekannten Sprachlauten und Wörtern passen. So wandelt es die gesprochene Sprache in Text um.

Dieses kurze Video zeigt dir, wie ein Log-Mel-Spektrogramm aussieht:

Externe Inhalte

Um Ihnen Video mit weiteren Informationen zu Produkten und Dienstleistungen anzeigen zu können, arbeiten wir mit Youtube zusammen. Für das Anzeigen der Inhalte benötigen wir Ihre Zustimmung.

Kathryn Helland

Virtuelle Sprachassistenten wie Google Assistant, Siri und Alexa verarbeiten den erkannten Text weiter, um eine passende Antwort oder Reaktion auf die Spracheingabe zu finden.

Wo KI bei Sprachassistenten bereits zum Einsatz kommt

Bei Sprachassistenten kommt KI immer stärker zum Einsatz. Das fängt mit der Spracherkennung an, aber auch die Absichten der Nutzer können die Systeme immer besser erkennen.

Sprachsteuerung: Mit Sprache Aktionen ausführen

Dein Sprachassistent erkennt, was du sagst. Das bedeutet aber nicht, dass er versteht, was du willst.

Mithilfe von KI werden moderne Sprachassistenten aber auch immer besser darin, deine Absichten zu verstehen. Du kannst ihnen Befehle erteilen, die sie für dich ausführen. Das nennt man Sprachsteuerung.

So nutzt du die Sprachsteuerung:

  1. Aktivierungswort: Damit dein Sprachassistent auf Befehle hört, musst du ihn zuerst ansprechen. Je nach Modell sagst du entweder „(Hey) Siri“, „Alexa“ oder „Ok/Hey Google“.
  2. Befehl geben: Sage den gewünschten Befehl klar und deutlich.
  3. Assistent führt die Aktion aus: Der Assistent interpretiert deinen Befehl und führt die entsprechende Aktion aus.

Eine Frau sitzt auf einem Sofa und hält ein Smartphone vor dem Mund.

stock.adobe.com/fizkes

Hier sind einige Beispiele für Sprachbefehle:

Beispiel: Wecker stellen

  • Befehl: „(Hey) Siri, stelle einen Wecker für 7 Uhr morgens.“
  • Was passiert: Siri stellt einen Wecker für die gewünschte Zeit.

Beispiel: Licht einschalten

  • Befehl: „Alexa, schalte das Wohnzimmerlicht ein.“
  • Was passiert: Wenn du smarte Glühbirnen hast, schaltet Alexa das Licht im Wohnzimmer ein.

Beispiel: Timer stellen

  • Befehl: „Ok/Hey Google, stelle einen Timer für 10 Minuten.“
  • Was passiert: Google Assistant startet einen 10-Minuten-Timer.

Diktieren: Texte sprechen, statt zu tippen

Eine der ältesten Anwendungen der Spracherkennung ist das Diktieren. Wenn du schneller sprechen als tippen kannst oder multitasken willst, kannst du deinem Computer, Smartphone oder Sprachassistenten Texte vorsprechen.

Bei Sprachassistenten ist das besonders praktisch für kurze Nachrichten. Wenn du Siri bitten möchtest, deinen Freunden mitzuteilen, dass du bald ankommst, sag einfach „Hey Siri, sende eine Nachricht an [Name]“ und diktiere dann die Nachricht.

Für längere Texte haben Computer und Smartphones oft spezielle Diktierfunktionen.

Sprachübersetzung in Echtzeit

Sprachassistenten nutzen Spracherkennung, um in Echtzeit zwischen zwei verschiedenen Sprachen hin und her zu übersetzen. Sie verwandeln Sprache in Text, übersetzen diesen und geben den übersetzten Text anschließend wieder als Sprache aus.

Google Assistant hat eine praktische Funktion namens „Dolmetschermodus“, mit der du Gespräche in Echtzeit zwischen über 40 Sprachen übersetzen kannst. Um ihn zu aktivieren, sag einfach „Ok/Hey Google, sei mein [Sprache] Dolmetscher“ oder „Ok/Hey Google, aktiviere den Dolmetschermodus“. Nach der Aktivierung sprichst du in deiner Sprache, und Google Assistant übersetzt automatisch in die gewählte Zielsprache, sowohl gesprochen als auch auf dem Bildschirm.

In diesem Video siehst du ein Beispiel für die Google-Dolmetscherfunktion:

Externe Inhalte

Um Ihnen Video mit weiteren Informationen zu Produkten und Dienstleistungen anzeigen zu können, arbeiten wir mit Youtube zusammen. Für das Anzeigen der Inhalte benötigen wir Ihre Zustimmung.

SmartDroidTV

Siri kann ebenfalls Übersetzungen vornehmen. Du sagst einfach „(Hey) Siri, wie sage ich ,Wo ist die Toilette?’ auf Spanisch?“, und Siri spricht die Übersetzung aus und zeigt sie als Text an.

Amazon Alexa hatte eine Live-Übersetzungsfunktion, die jedoch am 31. Oktober 2023 eingestellt wurde.

Stimmenerkennung: Stimmprofile und Voice Match

Stimmenerkennung wird genutzt, um die Identität des Sprechers zu ermitteln. Das bedeutet, dass der Assistent nicht nur die Worte versteht, sondern auch erkennt, wer spricht.

Eine Hand bedient einen sprachgesteuerten Assistenten

stock.adobe.com/tanaonte

Durch Stimmerkennung kann ein Sprachassistent verschiedene Nutzer unterscheiden und personalisierte Inhalte bereitstellen. Das System kann zum Beispiel jedem Familienmitglied dessen bevorzugtes Musikgenre vorspielen.

Siri (Apple):

  • Nutzt Stimmenerkennung bloß zur Sicherheit, damit nur du die „Hey Siri“-Funktion aktivieren kannst.
  • Der Nutzer spricht mehrere Sätze ein, um ein Stimmprofil zu erstellen.
  • Das Stimmenprofil wird lokal auf dem Gerät verarbeitet und verschlüsselt gespeichert.

Alexa (Amazon):

  • Du kannst mehrere Stimmprofile für verschiedene Haushaltsmitglieder einrichten.
  • Nutzer legen dafür in der Alexa-App ein Stimmprofil an und sprechen mehrere Sätze vor.
  • Ermöglicht personalisierte Funktionen wie individuelle Musikwiedergabe und Einkäufe.

Google Assistant:

  • Verwendet die Voice-Match-Technologie zur Stimmerkennung.
  • Lässt Nutzer während der Einrichtung ganze Sätze nachsprechen, um die Genauigkeit zu verbessern.
  • Kann bis zu sechs verschiedene Stimmen pro Haushalt unterscheiden und personalisierte Ergebnisse liefern.

Wie gut ist die Spracherkennung mit KI?

Technologie zur Spracherkennung wird seit den 1950er-Jahren entwickelt. Am Anfang war sie sehr begrenzt und ungenau. Heute funktioniert sie viel besser. Dank künstlicher Intelligenz können viele Geräte Sprache gut erkennen und darauf reagieren.

Eine Frau sitzt neben einem Smart-Speaker und hält dabei ein Tablet in der Hand.

stock.adobe.com/rh2010

Die Wortfehlerrate (WER) zeigt, wie gut eine Spracherkennung funktioniert. Sie gibt als Prozentsatz an, wie oft das System ein gesprochenes Wort auslässt, ein Wort hinzufügt oder ein falsches Wort erkennt. Eine niedrige WER bedeutet, dass die Spracherkennung genau ist. Ein Mensch erreicht ungefähr eine WER von 4 bis 6 Prozent.

KI-Spracherkennung im Vergleich zum Menschen:

  • Laut einer Studie von Forschern am Karlsruher Institut für Technologie gab es im Jahr 2020 bereits erste KI-Systeme, die eine WER von 5 Prozent erreichten.
  • Ein Paper von OpenAI (2022) vergleicht Modelle zur Spracherkennung und führt Systeme auf, die eine WER von nur 1,4 Prozent haben. Diese Modelle funktionieren aber nicht in Echtzeit und lassen sich daher nur begrenzt mit Menschen vergleichen.
  • Forscher vom Helmholtz-Zentrum für Informationssicherheit präsentierten im Jahr 2023 das Ergebnis eigener Tests, wonach Transkripte von menschlichen Transkriptionsdiensten weniger Fehler enthielten als jene von KI-basierten Diensten.

Fazit & Ausblick: KI & Spracherkennung

Unsere Geräte erkennen Sprache mittlerweile so genau wie Menschen. Die korrekte Interpretation von Texten bleibt jedoch eine Herausforderung. In beiden Bereichen hat künstliche Intelligenz in den vergangenen Jahren große Fortschritte gemacht.

Derzeit erfordert die Sprachverarbeitung in Sprachassistenten einen Zwischenschritt. Gesprochene Sprache wird zunächst in Text umgewandelt. Erst dann verarbeitet eine separate KI den daraus resultierenden Befehl.

Neue Modelle wie OpenAIs GPT-4o versprechen jedoch, diesen Zwischenschritt vollständig zu eliminieren. Die direkte Sprachverarbeitung wird die Reaktionsgeschwindigkeit von Sprachassistenten steigern. Auch könnten subtile Nuancen in Tonfall und Emotion des Sprechers die Antworten der KI beeinflussen und verfeinern.

Unsere Geräte werden zunehmend personalisiert und benutzerfreundlich. Die Vision vom intelligenten Assistenten litt anfangs an der holprigen Umsetzung – mit KI nimmt sie nun langsam Form an.

Häufige Fragen und Antworten zu KI und Sprachassistenten

Beiträge rund um Sprachassistenten

Kontakt

Fragen und Antworten

findest du hier

Schreib uns

Kontaktformular

Unsere Versandpartner

Einfach bezahlen

MediaMarkt-App herunterladen

AppleGoogleHuawei

Alle Preise in Euro und inkl. der gesetzlichen Mehrwertsteuer, zzgl. Versandkosten. Verkauf nur an private Endkunden. Abgabe nur in haushaltsüblichen Mengen. Änderungen und Irrtümer vorbehalten. Abbildungen ähnlich, alle Angebote ohne Dekoration. Angebot gültig auf mediamarkt.de, nur solange der Vorrat reicht. Liefergebiet: Deutschland. Für Markt-Angebote keine Mitnahmegarantie.

Mit dem Kauf bei einem Marktplatz Verkäufer akzeptieren Sie dessen AGB. Weitere Informationen zum Verkäufer erhalten Sie, indem Sie auf dessen Verkäufernamen klicken. Über unsere Suchergebnisse: Bestimmte Artikel können im Rahmen von Sonderaktionen oder Werbekampagnen höher eingestuft werden. Hierfür können wir Vorteile erhalten. Das Ranking unserer Suche basiert im Übrigen auf folgenden Hauptparametern (absteigende Relevanz): Übereinstimmung des Suchbegriffs mit Artikeldaten, Beliebtheit des Artikels, Produktverfügbarkeit, Relevanz der Produktkategorie und Neuheit des Artikels.

* Gilt nicht für Großgeräte per Speditionslieferung und FSK18 Artikel. Gilt nur für direkt von MediaMarkt angebotene Produkte.

** Nur für MyMediaMarkt-Kunden: 0% effektiver Jahreszins ab € 100.- Finanzierungssumme, gilt für die ersten 10 Monate ab Vertragsschluss, ausschließlich für direkt von MediaMarkt angebotene Produkte, monatliche Mindestrate € 10.-, Laufzeit produktabhängig bis zu 60 Monate. Erst- und Schlussrate kann abweichen. Bonität vorausgesetzt. Bei der BNP Paribas erfolgt die Finanzierung über einen Kreditrahmen mit Mastercard®, den Sie wiederholt in Anspruch nehmen können. Nettodarlehensbetrag bonitätsabhängig bis 10.000,- €. 18,90 % effektiver Jahreszinssatz. Vertragslaufzeit auf unbestimmte Zeit. Gebundener Sollzinssatz von 0 % gilt nur für die ersten 10 Monate ab Vertragsabschluss (Zinsbindungsdauer) auf von MediaMarkt vermittelte Finanzierungen und produktabhängig. Sie müssen monatliche Teilzahlungen in der von Ihnen gewählten Höhe leisten. Führen Sie Ihre Ratenplan-Verfügung nicht innerhalb der Zinsbindungsdauer zurück, gelten die Konditionen für Folgeverfügungen: Für andere und künftige Verfügungen (Folgeverfügungen) beträgt der veränderliche Sollzinssatz (jährlich) 17,43 % (falls Sie bereits einen Kreditrahmen bei unserem Finanzierungspartner haben, kann der tatsächliche, veränderliche Sollzinssatz abweichen). Für Folgeverfügungen müssen Sie monatliche Teilzahlungen in der von Ihnen gewählten Höhe, mind. aber 2,5% des jeweils höchsten, auf volle 100 € gerundeten Sollsaldos der Folgeverfügungen (mind. 10,- €) leisten. Gültig für volljährige Verbraucher mit Wohnsitz in Deutschland, gültigem Personalausweis oder Reisepass (Nicht-EU-Bürger i. V. m. gültigem Aufenthaltstitel), gültiger EC-Karte auf eigenen Namen. Vermittlung erfolgt ausschließlich für unsere Finanzierungspartner: BNP Paribas S.A. Niederlassung Deutschland, Rüdesheimer Straße 1, 80686 München • Targobank AG, Kasernenstr. 10, 40213 Düsseldorf • Santander Consumer Bank AG, Santander-Platz 1, 41061 Mönchengladbach. Finanzierungspartner marktabhängig. Bei Kauf im MediaMarkt- bzw. Saturn-Onlineshop ist der Finanzierungspartner die BNP Paribas S.A. Niederlassung Deutschland, Rüdesheimer Straße 1, 80686 München.

** Ratenfinanzierung wählbar ab € 100.- Finanzierungssumme, ausschließlich für direkt von MediaMarkt angebotene Produkte, monatliche Mindestrate: € 10,-. Barzahlungspreis entspricht Nettodarlehensbetrag. Der effektive Jahreszins von 11,90 % (Laufzeit produktabhängig bis zu 60 Monate) entspricht einem gebundenen Sollzinssatz von 11,29 % p.a. Erst- und Schlussrate kann abweichen. Bonität vorausgesetzt. Die Angaben stellen zugleich das repräsentative 2/3-Bsp. i.S.d. § 17 Abs. 4 PAngV dar. Bei der BNP Paribas erfolgt die Finanzierung für Ratenpläne von bis zu 60 Monaten über einen Kreditrahmen mit Mastercard®, den Sie wiederholt in Anspruch nehmen können. Nettodarlehensbetrag bonitätsabhängig bis 10.000 €. 18,90 % effektiver Jahreszinssatz, Vertragslaufzeit auf unbestimmte Zeit. Gebundener Sollzinssatz gilt nur für von MediaMarkt vermittelte Finanzierungen zeitlich befristet bis maximal 60 Monate (Zinsbindungsdauer). Sie müssen monatliche Teilzahlungen in der von Ihnen gewählten Höhe leisten. Führen Sie Ihre Ratenplan-Verfügung nicht innerhalb der Zinsbindungsdauer zurück, gelten die Konditionen für Folgeverfügungen: Für andere und künftige Verfügungen (Folgeverfügungen) beträgt der veränderliche Sollzinssatz (jährlich) 17,43 % (falls Sie bereits einen Kreditrahmen bei BNP Paribas haben, kann der tatsächliche veränderliche Sollzinssatz abweichen). Für Folgeverfügungen müssen Sie monatliche Teilzahlungen in der von Ihnen gewählten Höhe, mind. aber 2,5% des jeweils höchsten, auf volle 100 € gerundeten Sollsaldos der Folgeverfügungen (mind. 10 €) leisten. Gültig für volljährige Verbraucher mit Wohnsitz in Deutschland, gültigem Personalausweis oder Reisepass (Nicht-EU-Bürger i. V. m. gültigem Aufenthaltstitel), gültiger EC-Karte auf eigenen Namen. Vermittlung erfolgt ausschließlich für unsere Finanzierungspartner: Targobank AG, Kasernenstr. 10, 40213 Düsseldorf • BNP Paribas S.A. Niederlassung Deutschland, Rüdesheimer Straße 1, 80686 München • Santander Consumer Bank AG, Santander-Platz 1, 41061 Mönchengladbach. Finanzierungspartner marktabhängig.

**** Bestehende gesetzliche Rechte (Widerrufsrecht, Gewährleistung) werden hierdurch nicht berührt.

ᵂAktion gültig in Media Märkten in Deutschland zwischen dem 15.07.2024 bis 22.07.2024 und im MediaMarkt Onlineshop unter www.mediamarkt.de (Käufe bei Drittanbietern ausgenommen) vom 15.07.2024, 9 Uhr bis 22.07.2024, 08:59 Uhr. Keine Mitnahmegarantie. Nur solange der Vorrat an Aktionsprodukten reicht. Abgabe nur in haushaltsüblichen Mengen. Alle Angebote ohne Dekoration.

ᵂᴳ Keine Mitnahmegarantie. Alle Angebote ohne Dekoration. Gültig in MediaMärkten in Deutschland vom 15.07., 9 Uhr bis 22.07., 8.59 Uhr (bitte beachten Sie dazu die lokalen Öffnungszeiten vor Ort) und im MediaMarkt-Onlineshop unter mediamarkt.de vom 15.07., 9 Uhr bis 22.07., 8.59 Uhr (nicht verfügbar bei Drittanbietern). Abgabe im Webshop bis max. 5 Stück eines Angebotsprodukt pro Kunde. Nur solange der Vorrat reicht. Aufgrund begrenzter Warenmengen können Aktionsgeräte bereits am ersten Aktionstag ausverkauft sein. Irrtümer und technische Änderungen vorbehalten, Farbdarstellung kann abweichen. Nicht mit anderen (Rabatt-)Aktionen kombinierbar.

⁰ Aktion gültig im jeweils angegebenen Aktionszeitraum in MediaMarkt – Märkten in Deutschland und im MediaMarkt-Onlineshop unter mediamarkt.de. Vorteil wird vom jeweiligen Ausrichter der Aktion gewährt. Registrierung beim Ausrichter der Aktion erforderlich. Alle Informationen zu Aktion, Veranstalter und Teilnahmebedingungen erhalten Sie nach Klick auf das Aktionsbanner.

¹ Keine Mitnahmegarantie. Alle Angebote ohne Dekoration. Angebot gültig in MediaMärkten in Deutschland vom 08.07. bis 20.07.2024 (auch an verkaufsoffenen Sonntagen am 14.07. und 21.07., bitte beachten Sie dazu die lokalen Öffnungszeiten Ihres Marktes) und im MediaMarkt-Onlineshop unter mediamarkt.de vom 08.07., 9 Uhr bis 22.07.2024, 08:59 Uhr (Käufe bei Drittanbietern ausgenommen). Abgabe nur in haushaltsüblichen Mengen. Nur solange der Vorrat reicht. Irrtümer und technische Änderungen vorbehalten, Farbdarstellung kann abweichen. Nicht mit anderen (Rabatt-) Aktionen kombinierbar.

⁵ Nur für Neukunden ab 16 Jahren mit dt. Wohnsitz bei Abschluss eines Apple Music, Apple TV+, Apple Arcade, Apple Fitness+ oder Apple iCloud Abos in einem MediaMarkt in Deutschland oder via www.mediamarkt.de/appleservices. Während der Probemonate jederzeit mit sofortiger Wirkung kündbar. Bei Kündigung vor Ablauf der Probemonate endet die Nutzungsmöglichkeit sofort, das Probeabo kann nicht reaktiviert werden. Sofern nicht mindestens 24 Stunden vor Ablauf der Probemonate gekündigt wird, verlängert sich das Abo automatisch zum Preis von bis zu 10,99 €/Monat. Nach den Probemonaten Kündigung jederzeit zum Ablauf des jeweiligen Vertragsmonats möglich. Gilt nur für Angebote in Deutschland und erfordert eine Apple-ID für Deutschland. Angebot begrenzt auf je ein Abonnement pro Familienfreigabe-Gruppe. Es gelten die Nutzungsbedingungen und Datenschutzrichtlinien von Apple. Weitere Informationen unter www.apple.com/legal/internet-services/itunes/de/terms.html. Nur für Einzelabonnements und private - nicht kommerzielle - Nutzung. Anbieter von Apple Services: Apple Distribution International, Hollyhill Industrial Estate, Hollyhill, Cork, Republic of Ireland. Weitere Infos im Markt und unter www.mediamarkt.de/appleservices.

⁷ Die staatliche Förderung ist im Herbst 2021 ausgelaufen. Gegenwärtig können keine neuen Förderanträge gestellt werden. Bitte beachte, dass die staatliche Förderung nur bei bereits genehmigten Anträgen besteht und die Förderungszusage der KfW nur noch eine begrenzte Zeit gültig ist.

⁹Einige Artikel können erst nach Verkaufsstart lieferbar sein. Vorbestellungen nehmen wir gerne entgegen.

¹⁰ Mitgliedschaft im myMediaMarkt-Programm erforderlich. Coupons nicht einlösbar für Verträge u. Verkäufe mit/von Drittanbietern, Download-/Content-/GamingCards und -Codes, Gutschein(-karten/-boxen), Prepaidkarten/-Services, E-Books/Bücher, Zusatzgarantien, von MediaMarkt angebotene oder vermittelte Services und Dienstleistungen, Versandkosten, Lebensmittel und Tchibo Cafissimo Produkte. Weitere Ausschlüsse möglich.