Foto: Alex Waibel, KIT Während einer Expe­dition zur versun­kenen Titanic hat Compu­ter­wis­sen­schaftler Alex Waibel aus einem U-Boot heraus eine Sprach­tech­nologie mit Video­funk­tion getestet. Dabei sendete er per Sonar Texte an die Ober­fläche, die dort mittels künst­licher Intel­ligenz (KI) in gespro­chene Sprache und Video umge­wan­delt wurden. Einige Dialoge hätten sie durch­bekommen, berich­tete der Forscher vom Karls­ruher Institut für Tech­nologie (KIT) der Deut­schen Presse-Agentur. "Wir konnten sehen, dass das wirk­lich funk­tio­niert."

Die Titanic war 1912 auf ihrer Jung­fern­fahrt unter­gegangen. Das Passa­gier­schiff liegt in rund 3800 Metern Tiefe im Atlantik. Funken sei von dort aus wegen der Massen an Salz­wasser nicht möglich, erläu­terte Waibel. Sonar aber ermög­liche nur eine "unwahr­schein­lich nied­rige Band­breite". Das reiche gerade für Text­nach­richten.

So funk­tio­niert die Technik

Die getes­tete Technik funk­tio­niert wie folgt: Vor dem Tauch­gang haben Waibel und betei­ligte Kollegen Videos und Stimm­proben von sich aufge­zeichnet. Errei­chen nun Text­nach­richten das Compu­ter­system, setzt die KI das so um, dass es auf dem Video so aussieht und klingt, als würde die Person selbst gerade spre­chen - samt Lippen­bewe­gungen.

Was insbe­son­dere im Zusam­men­hang mit der Titanic-Expe­dition nach einer PR-träch­tigen Spie­lerei von tech­nik­affinen Wissen­schaft­lern klingt, hat einen ernsten Hinter­grund: "Es gibt genü­gend Stellen auf der Welt, wo die Band­breite so schlecht ist, dass nur Text-Über­tra­gung möglich ist", sagte Waibel. Mit der neuen Tech­nologie könnte so einmal Video-Kommu­nika­tion möglich werden.

Heraus­for­derungen beim Umsetzen der Texte in Videos

Doch hat die Mission auch die Tücken aufge­zeigt: Eines von zwei Sonar­geräten sei ausge­fallen, sagte Waibel. Daher habe nur ein Teil der Dialoge noch aus dem U-Boot über­tragen werden können. Auch sei er auf neue Ideen gekommen: So arbei­teten U-Boot-Besat­zungen viel mit Abkür­zungen, um Texte zu kompri­mieren. Ein weiteres Ziel sei, die Tech­nologie so zu verklei­nern, dass sie in eine Tasche passt. Alles in allem zeigte sich Waibel zufrieden: "Ein guter Anfang ist gelegt."

Eine der größten Heraus­for­derungen beim Umsetzen der Texte in Videos habe im Übrigen gar nichts mit der Sprache zu tun, verriet der Wissen­schaftler: "Wenn die Person nichts sagt, ist das über­raschend schwer." Dann bewegen sich die Lippen in den Videos bislang kaum.

Waibel war Teil einer größeren Mission unter anderem mit Biologen und Archäo­logen. Immer wieder gibt es derar­tige Expe­ditionen zur Titanic.

Seit mehr als 30 Jahren beschäf­tigt sich der Forscher mit KI und maschi­nellem Lernen in der Sprach- und Kommu­nika­tions­tech­nologie. Er entwi­ckelte unter anderem den nach KIT-Angaben welt­weit ersten auto­mati­schen simul­tanen Über­set­zungs­dienst an einer Univer­sität. Der "Lecture Trans­lator" zeichnet auto­matisch den Vortrag des Refe­renten auf und über­setzt die Sprach­signale simultan ins Engli­sche, was dann als Unter­titel einge­blendet wird. Studie­rende ohne Deutsch­kennt­nisse können so über Laptop, Smart­phone oder Tablet der Vorle­sung folgen.

