Internetfähige Fernsehgeräte hören in den Raum hinein. Das gesprochene Wort kann übertragen werden – das macht die Technik umstritten. Doch ganz so einfach ist die Sache nicht.

Als das Fernsehen seine (naja) Unschuld noch nicht verloren hatte: © Picture-Alliance Ungestörte Fernseh-Idylle in den sechziger Jahren.

Als das Fernsehen seine (naja) Unschuld noch nicht verloren hatte: © Picture-Alliance Ungestörte Fernseh-Idylle in den sechziger Jahren.

Das waren noch Zeiten, als die ganze Familie sich um das Lagerfeuer Fernsehen versammelte. Alle hatten sich lieb, selbst der Guckkasten im Wohnzimmer war ein netter Kerl. Heute ist vom einstigen Idyll nicht viel übrig. Und das liegt nicht allein an fragmentierter Freizeitgestaltung: Der Bildschirm ist auf dem besten Wege, seinen Ruf zu ruinieren. Denn immer wieder tauchen Enthüllungen auf, die ihm Spionage in den eigenen vier Wänden nachsagen. So haben moderne Smart TVs eingebaute Mikrofone, die sie unter anderem zur Steuerung über das gesprochene Wort nutzen, und über ihre Verbindung zum Internet können sie den so eingefangenen Text an Server funken, die ihnen bei der Analyse helfen – so ähnlich, wie Smartphones es machen. Was bleibt da noch privat im Wohnzimmer?

Parker Higgins, ein amerikanischer Bürgerrechtsaktivist, befeuerte in der vergangenen Woche via Twitter schlimmste Befürchtungen. Er hatte in den Lizenzbestimmungen aktueller Samsung-Fernsehgeräte eine Passage gefunden, die an Orwells düsteren Roman 1984 erinnert. Samsung erläutert: „Bitte beachten Sie, dass Ihre gesprochenen Worte, die persönliche oder andere sensible Informationen beinhalten, unter jenen Daten sein werden, die aufgenommen und an einen Drittanbieter übertragen werden, wenn Sie die Spracherkennung nutzen.“ Leiten Samsungs Fernseher also das gesamte akustische Privatleben an Big Brother weiter – und darf man folglich nicht mehr im eigenen Wohnzimmer reden, wie einem der Schnabel gewachsen ist?

Erst nach einem Code-Wort wird genau hingehört

Solche Sorgen sind zum Glück überzogen, denn Higgins hat, um wahrscheinlich der Dramatik willen, etliche Technik-Details weggelassen. So übertragen die Samsung-Fernseher gesprochene Anfragen nur dann an die externe Spracherkennung, wenn zuvor eine entsprechende Taste auf der Fernbedienung gedrückt wurde. Einfache verbale Steuerbefehle, etwa zur Einstellung der Lautstärke oder zum Wechsel des Fernsehprogramms, kommen ohne Datenübertragung aus: Das Gerät erkennt mit Bordmitteln, was sein(*)e HerrIn und Meister von ihm will, und es hört auch dann erst richtig hin, wenn man ihm (sic) zuvor ein Code-Wort zugerufen hat, zum Beispiel „Hi, TV“ oder „Smart-TV“. Wer die ganze Sache dennoch suspekt findet, kann die Spracherkennung auch komplett abschalten.

Was bringt die Spracherkennung überhaupt – und welche Möglichkeiten eröffnet sie für die Zukunft?

Das lässt sich am Beispiel des Samsung-Dienstleisters erörtern: Der koreanische Hersteller arbeitet mit Nuance zusammen, dem führenden Unternehmen für Spracherkennungssysteme in allen erdenklichen Anwendungsbereichen. Die Amerikaner forschen seit mehr als 20 Jahren an der Erkennung des gesprochenen Wortes, typischerweise dem Diktat. Wie von Geisterhand setzt etwa die PC-Software Dragon Naturally Speaking das gesprochene Wort in einen nahezu fehlerfreien Text um. Millionen von Ärzten und Anwälten diktieren mit diesem System direkt in den PC. Wenn der Mensch vor dem Computer, im Auto oder am Telefon zu einem Spracherkenner spricht, wandelt das Mikrofon die Luftdruckschwingungen in elektrische Schwingungen, die digitalisiert werden. Nach dieser Prozedur wird das Signal mehrstufig erkannt, wobei akustische und linguistische Verfahren zum Einsatz kommen. Aus Lauten werden Wörter.

Die Technik ist sehr rechenaufwendig, und das ist auch der Grund, warum Samsung und andere zwecks Erkennung die akustischen Wortschnipsel an Server in der Ferne schicken. Wollte man ein autonomes System einrichten, zeigt abermals Dragon Naturally Speaking den damit verbundenen Hardware-Aufwand: Ein aktueller Mehrkernprozessor müsste es schon sein, und dazu kommen vier bis acht Gigabyte Arbeitsspeicher sowie viel Platz für Vokabular und Sprachprofile. Das alles ist in einem Fernsehgerät oder einem Smartphone nicht zu realisieren. Und die Transkription auf fremden Servern hat zudem einen bestechenden Vorzug: Das Vokabular kann zentral gepflegt und aktualisiert werden. Kommen neue Begriffe hinzu, etwa angesagte Serientitel oder die Namen debütierender Jungschauspieler, lassen sich diese schnell einpflegen.

Individuellen Vorlieben werden gespeichert

Denn nicht nur auf die Erkennung kommt es bei den aktuellen Sprachsystemen der Fernsehwelt an. Der Clou sind vielmehr einige Extras, die ihre Nähe zu Apples kluger Sprachassistentin Siri nicht leugnen können. Wie Siri eine inhaltliche und semantische Analyse des Gesagten bietet, um mehr Variabilität bei Eingaben und Kommandos zu erlauben, soll auch der Fernseh-Spracherkenner ein persönlicher Assistent werden, etwa mit Dragon TV, das Nuance in Amerika anbietet. Pfiffig ist zum einen die übergreifende Steuerung sämtlicher Peripherie und Angebote rund ums Fernsehen. Die Nuance-Software steuert nicht nur den TV-Apparat, sondern auch den Receiver und den Festplattenrekorder. Alles ist miteinander verbunden, man kann nach Titeln oder Serien suchen lassen oder die Aufnahme auf der Festplatte veranlassen. Zudem sind Streaming-Dienste eingebunden, etwa Netflix und Hulu. Das Sahnehäubchen ist jedoch die Personalisierung für unterschiedliche Nutzer. Das System speichert individuelle Vorlieben, etwa Schauspieler oder Serien. Wie man bei Siri „Rufe meine Schwester an“ sagen kann, lässt sich hier „Kommt heute etwas mit meinem Lieblingsschauspieler?“ erfragen. Persönliche Assistenten haben also Zugriff auf die Daten des Nutzers, und anstelle der schlichten Erkennung einzelner Ausdrücke tritt eine umfangreiche Bedeutungsanalyse, die „erraten“ will, was der Nutzer gerade wünscht.

Vom Nuance-Knowhow profitieren auch die Smart TVs anderer wichtiger Anbieter, etwa die Geräte von LG und Panasonic. Aber horchen sie mit ihren Spracherkennungssystemen etwa ihre Besitzer aus? Das kann man ihnen nicht wirklich nachsagen, denn auch sie starten die Übertragung von Audio-Daten erst nach einem Tastendruck oder einem Touchpad-Befehl auf der Fernbedienung. Auch die Kinect-Steuerung der Spielekonsole Xbox One von Microsoft ist mittlerweile abschaltbar. Anfangs war geplant, dass sie permanent in den Raum hineinhören sollte. Einschlägige Kritik dagegen fing sich die Streaming-Box Amazon Fire TV ein, deren Spracherkennung offenbar ebenfalls auf Nuance-Technik beruht. Denn Amazon speichert die diktierten Suchbefehle nach Online-Filmen oder TV-Serien mitsamt der persönlichen Konto-Information auf seinen Servern, um, so die Begründung, auf diese Weise die Qualität der Spracherkennung zu erhöhen.

Dass diese Daten auch für personalisierte Werbung verwendet werden können, ist nicht von der Hand zu weisen. Zwar kann man die eigenen Sprachschnipsel auf Amazons Servern löschen, aber das ist eine umständliche Prozedur: Sie führt über die Konto-Einstellungen auf der Amazon-Website, von dort zum Menüpunkt „Meine Inhalte und Geräte“, wo sich dann die Fire-TV-Box auswählen lässt. Besonders ärgerlich: Nach dem Löschen sammelt Amazon weiter, nach jeder Nutzung der Spracherkennung müsste man also konsequenterweise erneut die Audio-Dateien in den Orkus befördern. Und wie das Ganze mit der Echo-Box von Amazon aussieht, dem Lautsprecher, der mit Sprachkommandos den Wetterbericht heraussucht oder Artikel auf die Amazon-Einkaufsliste setzt, sei dahingestellt. Noch gibt es den Apparat mit sieben Mikrofonen, die sich nach dem Kommandowort „Alexa“ aktivieren, nur in den Vereinigten Staaten.

Nutzer bekommen Wikipedia-Artikel vorgelesen

Sony konnte sich solcher Kritik bisher erfolgreich entziehen – einfach, weil die internetfähigen Geräte des Herstellers ohne Spracherkennung auskamen. Das wird sich ändern: Vom April an erscheinen die ersten Modellreihen, die komplett auf Android setzen. Und damit stehen ihnen alle Spracherkennungsfunktionen zur Verfügung, die das Betriebssystem unterstützt. Android-Hersteller Google hat die Spracherkennung für seine Mobilgeräte schon lange entdeckt. Sie ist zwar bei weitem nicht so leistungsfähig wie die von Nuance. Aber durch die Smartphone-Integration hat Google jederzeit Zugriff auf die persönlichen Daten des Nutzers und kann diese mit seinem Google-Now-Angebot verbinden. Auch hier startet die Erkennung mit einem Hotword wie „Okay Google“, und es gibt eine inhaltliche Analyse, die über die Spracherkennung hinausreicht. Ein „Wer ist Angela Merkel?“ lässt die Maschine den ersten Absatz des entsprechenden Wikipedia-Eintrags vorlesen, und selbst die Anschlussfrage „Wie alt ist sie?“ wird umgehend beantwortet.

Wie zuverlässig die neuen Sony-Geräte die Privatsphäre schützen, lässt sich noch nicht beurteilen: Vorerst konnte die Fachwelt sich nur mit frühen Prototypen beschäftigen. Das gilt auch für die jüngste Smart-TV-Generation von TP Vision, die den Markennamen Philips trägt und die ebenfalls auf Android setzt. Erst die Neuheiten dieses Jahres werden mit der jüngsten Version des Betriebssystems (5.0 „Lollipop“) laufen. Schon jetzt aber kann man sagen, dass TP Vision einiges richtig macht: Im Bildschirmdialog der Erstinstallation fragen die Geräte ab, was ihnen erlaubt sein soll – ob sie zum Beispiel das Nutzerverhalten für Programmempfehlungen protokollieren und an externe Server weiterleiten dürfen oder nicht.

Das ist das Mindeste, was man von smarten Fernsehern an Respekt vor der Privatsphäre verlangen kann: klare, verständlich Installationsdialoge und einfache Abschaltmöglichkeiten von Daten-Sammelfunktionen, die sich nicht in den Tiefen schwer auffindbarer Untermenüs verstecken. Andererseits hat es aber auch wenig Sinn, die moderne Technik im Wohnzimmer zu dämonisieren. Denn wir nutzen sie ja alle schon längst – mit all unseren Smartphones, Tablets und Computern.

Quelle: F.A.S.

Feb. 2015 | Allgemein, Essay, Feuilleton, Junge Rundschau, Sapere aude, Zeitgeschehen | Kommentieren