Nvidia: Avatare könnten menschliche Sprecher ersetzen


(Offenlegung NVIDIA ist ein Kunde des Autors)

Nvidia präsentierte diese Woche bei Siggraph seine Sicht auf die Zukunft des Metaverse. Wie erwartet war es ein Multimedia-Schaufenster, bei dem jedes Bildmaterial die Punkte der verschiedenen Redner verstärkte. Ein Großteil der Präsentation konzentrierte sich auf Avatare und darauf, wie die Tools von Nvidia durch die Emulation von Gesichtsmuskeln die möglicherweise hölzernen Darbietungen dieser Avatare in eine Vielzahl sichtbarer Emotionen übersetzen könnten.

Das Endergebnis war sowohl realistischer als auch interessanter. (Ich habe dies letzte Woche angesprochen, als ich Nvidias Pläne vorab angeschaut habe.)

Was ich faszinierend fand, war, dass die menschlichen Moderatoren – im Gegensatz zu diesen Avatar-Fähigkeiten – hölzern und emotionslos rüberkamen. Ich habe im Laufe der Jahre viele Präsentationen (und Präsentationstrainings) gemacht, mehrere Jahre mit der Schauspielerei verbracht und war früher ein Wettbewerbsmoderator. Was wir gesehen haben, war zweifellos ein Mangel an Prompter-Probe; Dadurch entstehen oft hölzerne Darbietungen für Redner, die seit einiger Zeit keinen Souffleur vor einem Live-Publikum verwendet haben.

Der Kontrast zwischen den ansprechenden Avataren und den langweiligen menschlichen Sprechern ließ mich fragen, warum wir Menschen für Präsentationen noch brauchen – zumal viele dieser Präsentationen jetzt virtuell sind.

Das Problem mit Menschen

Ich bin von Natur aus introvertiert, was bedeutet, dass ich Lampenfieber bekommen kann. Früher wollte ich Schauspieler werden, und das machte diesen Karriereweg wirklich zu einem No-Go. Ich versuchte auch, Anwalt zu werden, was sich als ein weiterer Weg herausstellte, den ich nicht beschritten hatte. Dann sah ich mir eine Übung für das Redeteam des örtlichen Colleges an. Ich probierte es ausgelassen ohne Publikum aus und beeindruckte den Trainer so sehr, dass er mir die Reise zum Regionalwettbewerb genehmigte. Ich belegte den ersten Platz in meiner Klasse, nahm an einem Landeswettbewerb teil, gewann eine Medaille und landete einen Monat später bei den Nationalmannschaften, wo ich drei Bronzemedaillen und eine Silbermedaille gewann. Meine gesamte Wettkampferfahrung als Redner betrug drei Monate.

Es gelang mir, meine Ängste beiseite zu legen und mich darauf zu konzentrieren, durch die Präsentationen Emotionen zu wecken, indem ich meine schauspielerischen Fähigkeiten einsetzte, die ich für Zeitverschwendung gehalten hatte.

Menschliche Moderatoren haben Probleme. Wie ich können sie Lampenfieber haben, krank werden, persönliche Probleme haben, die ihre Leistung beeinträchtigen, und sie machen Fehler. Einmal wurde ich gebeten, einzuspringen und eine Keynote für einen CEO zu halten, der bei einem Abendessen so betrunken war, dass er nicht aufstehen, geschweige denn sprechen konnte (übrigens kein gutes Aussehen für einen CEO). Mit dem gleichen Ansatz, auf den ich mich beim Wettkampf verlassen hatte, zog ich es durch.

Aber was wäre, wenn Menschen nicht mehr sprechen müssten? Was wäre, wenn Sie einen Ersatz hätten, der immer eingeschaltet wäre, ein perfektes Gedächtnis für den Inhalt hätte, keinen Prompter, keine Notizen oder Cue-Karten benötigen würde?

Was wäre, wenn Sie den perfekten digitalen Sprecher bauen könnten?

Nvidias Lösung

Auf der Siggraph demonstrierte NVIDIA, dass ein fotorealistischer Avatar automatisch Emotionen ausdrücken und den Sprachrhythmus variieren kann, um ein Skript in eine scheinbare Live-Präsentation zu verwandeln. Anstelle einer Person verwendete das Unternehmen einen Avatar, der echt aussah, aber tatsächlich ein digitales Konstrukt war. Probleme wie Skriptänderungen in letzter Minute wären weit weniger ein Problem; Sie müssten nur die Änderungen eintippen, die emotionalen Parameter an die Worte anpassen und plötzlich hätten Sie eine Videodarstellung, die so aussah, als hätte der Sprecher monatelang geübt.

Nvidia argumentierte, dass man diese Avatare mit KI-Fähigkeiten unterstützen könnte, die es ihnen ermöglichen könnten, den Sprachinhalt spontan zu ändern, Fragen zu beantworten oder sogar Zwischenrufe im Publikum abzuwehren. Stellen Sie sich vor, wie dies für die Vorbereitung politischer Debatten nützlich sein könnte, wo ein Avatar mit den Gesprächsthemen der Opposition und früheren persönlichen Angriffen trainiert werden könnte und unter Verwendung des Gesichts des Gegners einen realistischeren Gegner schaffen könnte, als irgendein Mitarbeiter für die Arbeit hinzuziehen würde.

Die Vorteile von Avatar-Lautsprechern

Oft stellen Unternehmen Mitarbeiter aus den falschen Gründen auf die Bühne, meist dreht es sich um Sichtbarkeit und Facetime. Das Ziel einer Präsentation ist die Wissensvermittlung, nicht die Erhöhung der Sichtbarkeit eines bestimmten Mitarbeiters. Indem wir uns auf das falsche Ziel konzentrieren, enden wir oft mit traurigen, hölzernen Präsentationen von Menschen, die es nicht mögen, Präsentationen als Teil ihrer normalen Arbeit zu machen.

Avatare reduzieren nicht nur den Stress für Menschen, die nicht gerne in der Öffentlichkeit sprechen, sondern können die Qualität einer Präsentation verbessern, da sie für das Publikum optimiert werden können. Das Ändern einiger Einstellungen kann einen neuen Akzent, eine andere Betonung bedeuten – sogar wie der Avatar gekleidet ist.

Ich gehe davon aus, dass Avatare irgendwann den Platz von Live-Moderatoren einnehmen werden, da sie ihre menschlichen Gegenstücke durchweg übertreffen können. Und irgendwann, wenn wir Hologramme realistischer arbeiten lassen, werden wir vielleicht sehen, dass Avatare auch bei physischen Ereignissen den Platz echter Menschen einnehmen. Nvidia hat diese Woche auf der Siggraph gezeigt, dass das Zeitalter der menschlichen Sprecher möglicherweise zu Ende geht und damit vielleicht auch der Bedarf an menschlichen Schauspielern und Statisten.

Copyright © 2022 IDG Communications, Inc.