Spracheingabe (Speech-to-Text)

Mit der Spracheingabe können Sie eine Nachricht diktieren, anstatt sie zu tippen. Sie sprechen direkt in Ihr Mikrofon, und Intra AI wandelt Ihre Sprache in Text um und fügt ihn in das Eingabefeld ein — bereit zum Prüfen und Absenden.

Auf einen Blick: Klicken Sie auf die Mikrofon-Schaltfläche unten rechts im Eingabefeld, sprechen Sie, und klicken Sie anschließend auf das blaue Häkchen zur Bestätigung. Das Transkript wird dem bereits eingegebenen Text hinzugefügt.

Diese Funktion ist nur verfügbar, wenn zwei Bedingungen erfüllt sind:

Ihr Administrator hat Speech-to-Text für Ihren Arbeitsbereich aktiviert.
Ihr Browser unterstützt Audioaufnahmen (alle modernen Desktop-Browser tun dies; iOS Safari erfordert Version 14.5 oder höher).

Ist eine dieser Bedingungen nicht erfüllt, wird die Mikrofon-Schaltfläche nicht angezeigt.

Was Spracheingabe ist#

Spracheingabe ist eine Möglichkeit, Ihre Worte schneller als durch Tippen ins Eingabefeld zu bringen — besonders nützlich bei längeren Fragen, Notizen, die Sie lieber diktieren möchten, oder in Situationen, in denen Tippen unpraktisch ist.

Wenn Sie sprechen, wird das Audio in Ihrem Browser aufgezeichnet und an einen Transkriptionsdienst übertragen, der auf der eigenen Infrastruktur Ihrer Organisation betrieben wird. Kein Audio verlässt jemals die Server Ihrer Organisation in Richtung eines externen Sprachdienstes. Der Dienst liefert den erkannten Text, die erkannte Sprache und die Länge der Aufnahme zurück. Dieser Text wird direkt in das Eingabefeld eingefügt.

Die browsereigene Spracherkennung (sofern Ihr Browser eine hat) wird nicht verwendet — Intra AI nutzt einen eigenen Whisper-basierten Dienst, der mehrsprachig ist und browserübergreifend zuverlässig funktioniert.

Wie Sie eine Nachricht diktieren#

Schritt 1 — Mikrofon-Schaltfläche finden

Die Mikrofon-Schaltfläche befindet sich in der unteren rechten Ecke des Eingabefelds, direkt links neben der blauen Senden-Schaltfläche. Sie sieht aus wie ein kleines Mikrofon-Symbol.

Das Chat-Eingabefeld im Ruhezustand mit der Mikrofon-Schaltfläche rechts im Eingabefeld

Hinweis: Die Schaltfläche erscheint nur, wenn Ihr Administrator Speech-to-Text aktiviert hat und Ihr Browser Audioaufnahmen unterstützt. Wenn Sie sie nicht sehen, lesen Sie weiter unter Fehlerbehebung.

Schritt 2 — Auf das Mikrofon klicken, um die Aufnahme zu starten

Klicken Sie auf die Mikrofon-Schaltfläche. Ihr Browser fragt beim ersten Mal (oder wenn Sie den Zugriff zuvor verweigert haben) nach der Berechtigung zur Nutzung des Mikrofons. Klicken Sie auf Erlauben.

Der Eingabebereich ändert sich sofort: Der Textbereich und die Werkzeugleiste werden durch die Aufnahme-Leiste ersetzt — eine Reihe von 80 animierten senkrechten Balken, die die Lautstärke Ihrer Stimme in Echtzeit visualisieren, sowie eine Zeitanzeige, die auf der rechten Seite hochzählt.

Das Eingabefeld während der Aufnahme mit der Live-Wellenform, einer Zeitanzeige sowie Abbrechen- und Bestätigen-Schaltflächen

Solange die Wellenform sichtbar ist, nimmt Intra AI alles auf, was Ihr Mikrofon aufzeichnet.

Schritt 3 — Ihre Nachricht sprechen

Sprechen Sie natürlich und in normalem Tempo. Beobachten Sie, wie sich die Wellenform-Balken beim Sprechen bewegen — bleiben sie flach, nimmt Ihr Mikrofon möglicherweise nichts auf (überprüfen Sie Ihre Systemeinstellungen für das Mikrofon).

Die Zeitanzeige zeigt, wie lange Sie bereits aufnehmen (Format M:SS).

Schritt 4 — Bestätigen oder abbrechen

Wenn Sie fertig gesprochen haben, haben Sie zwei Möglichkeiten:

Schaltfläche	Symbol	Funktion
Bestätigen	Blauer Kreis mit Häkchen (✓)	Beendet die Aufnahme und sendet das Audio zur Transkription
Abbrechen	Grauer Kreis mit X	Verwirft die Aufnahme — nichts wird gesendet und kein Text hinzugefügt

Klicken Sie auf Bestätigen (die blaue Häkchen-Schaltfläche rechts). Das Häkchen-Symbol wechselt zu einem Dreh-Indikator, während das Audio verarbeitet wird. Dies ist normal — der Transkriptionsdienst läuft auf den Servern Ihrer Organisation und braucht in der Regel einige Sekunden.

Schritt 5 — Prüfen und absenden

Sobald die Transkription abgeschlossen ist, verschwindet die Aufnahme-Leiste und das Eingabefeld erscheint wieder mit dem transkribierten Text.

Das Transkript wird an das angehängt, was bereits im Feld stand — vorhandener Text wird nie überschrieben. Wenn Sie vor der Aufnahme „Bitte fassen Sie zusammen" eingegeben hatten, lautet der endgültige Text „Bitte fassen Sie zusammen [Ihre diktierten Worte]", wobei bei Bedarf automatisch ein Leerzeichen eingefügt wird.

Bearbeiten Sie den Text bei Bedarf (Transkription ist nicht perfekt — Eigennamen, Fachbegriffe und Akzente können gelegentlich Fehler verursachen), und drücken Sie dann wie gewohnt Enter oder die Senden-Schaltfläche.

Tipp: Sie können mehrmals hintereinander diktieren. Jedes neue Transkript wird an das Ende des vorherigen Textes angehängt. So können Sie eine Nachricht Stück für Stück zusammenstellen.

Wie die Transkription funktioniert#

Wenn Sie auf Bestätigen klicken, verpackt der Browser Ihr Audio als komprimierte Audiodatei (das Format — webm/opus, ogg/opus oder mp4 — wird automatisch danach gewählt, was Ihr Browser unterstützt) und lädt sie in die Intra AI API hoch.

Die API prüft:

Sie sind angemeldet und Speech-to-Text ist für Ihren Arbeitsbereich aktiviert.
Die Datei unterschreitet das Größenlimit (Standard 10 MB).

Anschließend leitet sie das Audio an den Transkriptionsdienst weiter, der auf dem eigenen Server Ihrer Organisation läuft. Dieser Dienst verwendet das Whisper-Modell (ein mehrsprachiges Spracherkennungsmodell), um das Audio zu dekodieren. Voice Activity Detection (VAD)-Filterung wird automatisch angewendet, sodass Stille und Hintergrundgeräusche weitgehend ignoriert werden.

Der Dienst gibt drei Dinge zurück:

Text — das Transkript.
Sprache — die erkannte Sprache (z. B. en, de, fr). Whisper erkennt die Sprache automatisch, sodass Sie während einer Sitzung die Sprache wechseln können, ohne eine Einstellung zu ändern.
Dauer — wie viele Sekunden Sprache in der Aufnahme enthalten waren.

Der Text wird in das Eingabefeld eingefügt. Sprache und Dauer werden zu Überwachungszwecken für Ihren Administrator protokolliert; sie werden Ihnen in der Benutzeroberfläche nicht angezeigt.

Grenzen und Standardwerte#

Limit	Standard	Durch Admin konfigurierbar
Maximale Audiodateigröße	10 MB	Ja (`STT_MAX_AUDIO_SIZE_MB`)
Maximale Aufnahmedauer	120 Sekunden (2 Minuten)	Ja (`STT_MAX_AUDIO_DURATION_S`)
Anfragen pro 5-Minuten-Fenster	30	Ja (`RATE_LIMIT_STT_MAX`)

Überschreitet Ihre Aufnahme das Größen- oder Dauerlimit, wird sie vom Transkriptionsdienst abgelehnt und Intra AI zeigt eine Fehlerbenachrichtigung an. Teilen Sie lange Aufnahmen in kürzere Abschnitte auf, wenn Sie das Dauerlimit erreichen.

Das Transkriptions-Timeout auf der Client-Seite beträgt 60 Sekunden — dauert der Server länger, schlägt die Anfrage fehl und Sie sehen eine Fehler-Benachrichtigung.

Steuerelemente im Überblick#

Steuerelement	Position	Funktion
Mikrofon-Schaltfläche (Mikrofon-Symbol)	Unten rechts im Eingabefeld	Startet die Aufnahme; nur sichtbar, wenn STT aktiviert und der Browser Aufnahmen unterstützt
Abbrechen-Schaltfläche (X, grauer Kreis)	Links der Wellenform-Leiste	Verwirft die aktuelle Aufnahme sofort
Bestätigen-Schaltfläche (✓, blauer Kreis)	Rechts der Wellenform-Leiste	Beendet die Aufnahme und sendet das Audio zur Transkription
Dreh-Indikator (ersetzt ✓)	Rechts der Wellenform-Leiste	Wird angezeigt, während die Transkription läuft
Wellenform-Balken	Mitte der Aufnahme-Leiste	80 animierte Balken, die die Live-Mikrofon-Lautstärke zeigen; rein visuell
Zeitanzeige	Rechts der Wellenform	Verstrichene Aufnahmedauer im Format `M:SS`

Tipps & Hinweise#

Tipp: Sprechen Sie natürlich und in normalem Tempo. Kurze Pausen zwischen Sätzen sind in Ordnung — der Transkriptionsdienst kommt gut damit zurecht.

Tipp: Wenn Sie in einer anderen Sprache als Deutsch diktieren, sprechen Sie einfach — Whisper erkennt die Sprache automatisch.

Hinweis: Die Abbrechen-Schaltfläche (X) ist deaktiviert, während die Transkription läuft (nachdem Sie die Bestätigen-Schaltfläche geklickt haben). Warten Sie auf das Ergebnis, oder laden Sie die Seite neu, wenn der Dreh-Indikator sich nicht auflöst.

Hinweis: Spracheingabe funktioniert in jedem Gespräch, auch in Gesprächen innerhalb von Projekten. Sie ist im Admin-Panel nicht verfügbar.

Warnung: Die Transkription beansprucht Rechenkapazität auf dem Server Ihrer Organisation. Wenn viele Personen sie gleichzeitig nutzen, kann es zu einer kurzen Wartezeit kommen, bevor das Transkript erscheint. Das ist normal.

Fehlerbehebung#

Symptom	Wahrscheinliche Ursache	Was zu tun ist
Mikrofon-Schaltfläche ist nicht sichtbar	Speech-to-Text ist für Ihren Arbeitsbereich nicht aktiviert, oder Ihr Browser unterstützt keine Audioaufnahmen	Bitten Sie Ihren Administrator, die Funktion `stt` zu aktivieren; oder wechseln Sie zu einem unterstützten Browser (Chrome, Edge, Firefox, Safari 14.5+)
Browser fragt nach Mikrofon-Berechtigung und ich habe auf „Ablehnen" geklickt	Mikrofonzugriff wurde für diese Website gesperrt	Gehen Sie in Ihrem Browser zu den Website-Einstellungen für Intra AI und ändern Sie die Mikrofon-Berechtigung auf Erlauben, laden Sie dann die Seite neu
Eine Warnung meldet „Mikrofonzugriff wurde gesperrt"	Mikrofon-Berechtigung auf Browser-Ebene verweigert	Erlauben Sie den Mikrofonzugriff in den Website-Einstellungen Ihres Browsers, laden Sie dann die Seite neu
Eine Warnung meldet „Kein Mikrofon gefunden"	Kein Mikrofon ist angeschlossen oder vom Betriebssystem erkannt	Schließen Sie ein Mikrofon an, überprüfen Sie die Sound-Einstellungen Ihres Betriebssystems und versuchen Sie es erneut
Die Wellenform-Balken bleiben während der Aufnahme flach	Mikrofon ist angeschlossen, nimmt aber keinen Ton auf	Überprüfen Sie Ihre Betriebssystem-Sound-Einstellungen — stellen Sie sicher, dass Ihr Browser das richtige Eingabegerät verwenden darf; sprechen Sie lauter
Eine Warnung meldet, dass nichts aufgezeichnet wurde	Die Aufnahme endete mit einer leeren oder fast leeren Audiodatei	Stellen Sie sicher, dass Sie nach dem Klicken auf das Mikrofon tatsächlich gesprochen haben, und versuchen Sie es erneut
Eine Warnung meldet „Keine Sprache erkannt"	Audio wurde aufgezeichnet, aber Whisper fand keine erkennbare Sprache	Reduzieren Sie Hintergrundgeräusche, sprechen Sie deutlicher und versuchen Sie es erneut
Fehler: Audio überschreitet das Größenlimit	Aufnahmedatei überschritt die konfigurierte Maximalgröße (Standard 10 MB)	Teilen Sie Ihr Diktat in kürzere Abschnitte auf
Fehler: Aufnahmedauer überschreitet das Limit	Aufnahme war länger als das konfigurierte Maximum (Standard 120 Sekunden)	Halten Sie Aufnahmen unter 2 Minuten; diktieren Sie in mehreren kürzeren Abschnitten
Fehlerbenachrichtigung nach dem Klicken auf Bestätigen	Transkriptionsdienst ist nicht verfügbar oder hat einen Fehler zurückgegeben	Versuchen Sie es in wenigen Augenblicken erneut; wenn das Problem anhält, wenden Sie sich an Ihren Administrator
Dreh-Indikator läuft lange und schlägt dann fehl	Server hat länger als 60 Sekunden gebraucht, um zu antworten	Der Transkriptionsdienst ist möglicherweise ausgelastet — versuchen Sie es bald erneut
Ratenlimit-Fehler	Mehr als 30 Transkriptionsanfragen wurden in einem 5-Minuten-Fenster gesendet	Warten Sie einige Minuten, bevor Sie es erneut versuchen

Häufig gestellte Fragen#

F: Sendet Intra AI meine Sprachaufnahmen an einen Drittanbieter? A: Nein. Audio wird auf die Server Ihrer eigenen Organisation hochgeladen und dort verarbeitet. Nichts wird an einen externen Sprachdienst gesendet.

F: Kann ich die Spracheingabe in einer beliebigen Sprache verwenden? A: Ja. Der Transkriptionsdienst ist mehrsprachig und erkennt die Sprache automatisch. Sie müssen keine Einstellung ändern — sprechen Sie einfach in Ihrer bevorzugten Sprache.

F: Überschreibt das Diktieren den Text, den ich bereits eingegeben habe? A: Nein. Transkribierter Text wird immer an das angehängt, was bereits im Eingabefeld steht. Bei Bedarf wird automatisch ein Leerzeichen eingefügt.

F: Kann ich die Transkription mittendrin abbrechen? A: Die Abbrechen-Schaltfläche ist deaktiviert, sobald die Transkription begonnen hat (nachdem Sie auf die blaue Bestätigen-Schaltfläche geklickt haben). Wenn die Anfrage zu lange dauert, können Sie die Seite neu laden.

F: Wie genau ist die Transkription? A: Die Genauigkeit hängt von Ihrem Mikrofon, Hintergrundgeräuschen und der Deutlichkeit Ihrer Aussprache ab. Geläufige Wörter in den meisten Sprachen werden gut transkribiert. Fachbegriffe, Eigennamen und starke Akzente können manuelle Korrekturen erfordern. Prüfen Sie den Text immer vor dem Absenden.

F: Welches Audioformat wird aufgezeichnet? A: Der Browser wählt das beste Format, das er unterstützt — in der Regel webm/opus in Chrome und Firefox, ogg/opus in manchen Linux-Browsern oder mp4 in Safari. Der Server akzeptiert alle diese Formate automatisch.

F: Die Funktion war früher verfügbar, aber die Schaltfläche ist jetzt verschwunden — was ist passiert? A: Ihr Administrator hat möglicherweise Speech-to-Text in den Arbeitsbereich-Einstellungen deaktiviert. Wenden Sie sich an ihn, um es wieder zu aktivieren.

Weiterführend: Chat · Einstellungen · Dateien & Wissen

ZurückÜbersicht WeiterWebsuche & Recherche