Audio + Video transkribieren lassen Transkriptionsservice: von Ton zu Text.
Interviews, Konferenzmitschnitte, Podcasts, Schulungsvideos: Wir transkribieren Ihre Audio- und Videodateien per KI und prüfen das Ergebnis durch muttersprachliche Fachkräfte. Auf Wunsch direkt mit Fachübersetzung in 220+ Sprachen.
Über 140.000 Kunden vertrauen auf tolingo

- Leistung: Verschriftlichung von Audio- und Videodateien (Interviews, Konferenzen, Podcasts, Schulungen) mit KI-Vortranskription und menschlichem Medial Post-Editing. Optional mit Fachübersetzung.
- Qualität: Muttersprachliche Fachkräfte prüfen jede Transkription auf Korrektheit, Zeitstempel und Sprecherzuordnung. ISO-zertifizierte Prozesse.
- Kosten: KI ab 1,50 €/Minute, Smart (KI + Post-Editing) ab 6,50 €/Minute, Premium (+ Übersetzung) auf Anfrage.
- Lieferzeit: KI: 1 Werktag. Smart: 3 Werktage. Express verfügbar.
Was ist eine Transkription?
Definition und typische Einsatzbereiche
Eine Transkription ist die Verschriftlichung von gesprochenem Inhalt. In der Praxis bedeutet das: Eine Audio- oder Videodatei wird in einen formatierten Text umgewandelt, der Zeitstempel, Sprecherkennzeichnungen und bei Bedarf Anmerkungen zu nonverbalen Ereignissen enthält. Mehr dazu im Lexikon-Eintrag Transkription.
Typische Anwendungsfälle: Interviews für die Marktforschung, Gerichtsprotokolle, Konferenzmitschnitte, Podcast-Episoden für Barrierefreiheit und SEO, Schulungsvideos und wissenschaftliche Forschungsinterviews. In jedem Fall entsteht aus einer Aufnahme ein durchsuchbarer, zitierfähiger Text.
Drei Pakete, ein Ziel: Ihr fertiges Transkript
KI, Smart oder Premium, je nach Anforderung
Wir bieten drei Leistungsstufen an. Alle Pakete akzeptieren gängige Audio- und Videoformate (MP3, WAV, FLAC, M4A, MP4, MOV, AVI, WebM und weitere). Die Transkription erhalten Sie als Word-Datei (.docx), auf Wunsch auch als .srt (Untertitel), .txt oder .pdf. Detaillierte Preisinformationen finden Sie auch auf unserer Preisseite.
Automatische KI-Transkription. Für klare Aufnahmen mit wenigen Sprechern und Standardterminologie.
KI-Transkription anfragenKI + menschliches Medial Post-Editing. Für Fachbegriffe, Dialekte, mehrere Sprecher.
Smart-Transkription anfragenSmart + Fachübersetzung in eine oder mehrere Zielsprachen. Aus einem Interview in 220+ Sprachen.
Premium-Paket anfragenIm praktischen PDF finden Sie alle Informationen zum Service auf einen Blick: Onepager Transkription herunterladen (PDF).
Wofür wird eine Transkription gebraucht?
Typische Projekte unserer Kunden
Fokusgruppen, Tiefeninterviews, Nutzerbefragungen. Transkripte bilden die Grundlage für qualitative Inhaltsanalysen.
Zeugenaussagen, Verhandlungsprotokolle, Due-Diligence-Gespräche. Zitierfähig und auf Wunsch mit NDA. Mehr zu juristischen Übersetzungen
Forschungsinterviews, Expertengespräche, Ethik-Board-Aufnahmen. Transkripte für qualitative Studien und Dissertationen. Mehr zu Wissenschaftsübersetzungen
Podcast-Episoden, Video-Interviews, Pressekonferenzen. Transkripte für Barrierefreiheit, SEO und Content-Repurposing.
Transkription beauftragen?
Senden Sie uns Ihre Audio- oder Videodatei. Wir empfehlen das passende Paket und nennen Ihnen Preis und Liefertermin.
Kostenlos · Unverbindlich · NDA auf WunschWarum KI allein nicht reicht
Was das menschliche Post-Editing leistet
Moderne Spracherkennungssysteme transkribieren Audio in Minuten. Bei klaren Aufnahmen mit einem Sprecher liegt die Genauigkeit bei 90-95 %. Aber: Fachbegriffe, Dialekte, Hintergrundgeräusche, Sprecherwechsel und Eigennamen bleiben problematisch. In einem medizinischen Fachinterview erkennt die KI „Baseline" möglicherweise als „Basislinie". In einem juristischen Kontext wird „tort" zu „Torte". Deshalb ist ein gepflegtes Terminologie-Management auch bei Transkriptionsprojekten wertvoll.
Deshalb prüfen im Smart- und Premium-Paket muttersprachliche Redakteure jede Transkription im Medial Post-Editing (MPE). Sie korrigieren Fachbegriffe, setzen Zeitstempel, ordnen Sprecher zu und wenden den tolingo-Regelsatz an (einfache oder erweiterte Transkriptionsregeln). Das Ergebnis: ein zitierfähiger, durchsuchbarer Text.
Einfache und erweiterte Transkriptionsregeln
Welcher Regelsatz für Ihr Projekt passt
Bei tolingo arbeiten wir mit zwei standardisierten Regelsätzen. Sie wählen bei der Beauftragung, welcher angewendet wird.
Einfache Transkription
Text wird übernommen, wie er gesprochen wird (inkl. Fehler und Füllwörter). Undeutliche Stellen werden als [unverständlich] markiert, Fremdsprachen als [Fremdsprache]. Sprecher werden als „Speaker 1", „Speaker 2" etc. gekennzeichnet. Keine Zeitstempel.
Erweiterte Transkription
Zusätzlich zur einfachen Transkription: Dialektfärbungen werden korrigiert, nonverbale Laute (Ähms, Stotterer) entfernt, Hörerbestätigungen nur bei inhaltlichem Beitrag übernommen. Besondere Ereignisse in Klammern (z. B. „(Tonstörung)"). Sinnvolle Interpunktion bei langen Sätzen. Zeitstempel vor jedem Sprecherwechsel. Pausen über 4 Sekunden mit Sekundenangabe markiert. Unklare Wörter mit Fragezeichen: (?Koryphäe).
Einen ausführlichen Praxis-Leitfaden mit Beispielen finden Sie in unserem Guide: Fehler vermeiden bei der Interview-Transkription.
Transkription + Übersetzung aus einer Hand
Vom gesprochenen Wort in jede Zielsprache
Im Premium-Paket liefern wir Transkription und Fachübersetzung als ein Projekt. Das spart Ihnen die Koordination zwischen Transkriptionsdienstleister und Übersetzungsbüro. Ein Projektmanager betreut beides.
Typisches Szenario: Ein internationales Unternehmen lässt Schulungsvideos auf Deutsch transkribieren und in Englisch, Französisch und Spanisch übersetzen. Der Transkriptionstext wird direkt als Ausgangstext für die Übersetzung in 220+ Sprachen verwendet. Auf Wunsch erstellen wir auch Untertitel-Dateien (.srt) für die Videoplattform.
Bereit für Ihre Transkription?
Ob Interview, Konferenz oder Podcast: Wir transkribieren und übersetzen Ihre Inhalte.
Kostenlos · Antwort in wenigen Stunden · 97,8 % KundenzufriedenheitGlossar
Begriffe rund um Transkription und Sprachverarbeitung
- Medial Post-Editing (MPE)
- Menschliche Nachbearbeitung einer KI-generierten Transkription. Der Redakteur prüft Fachbegriffe, korrigiert Sprecherzuordnungen, setzt Zeitstempel und wendet den vereinbarten Regelsatz an. Vergleichbar mit dem Post-Editing bei maschinellen Übersetzungen.
- Transkription
- Verschriftlichung von gesprochenem Inhalt aus Audio- oder Videodateien. Ergebnis ist ein formatierter Text mit Sprecherkennzeichnungen, optional mit Zeitstempeln und Annotationen zu Hintergrundgeräuschen oder Pausen.
- Zeitstempel
- Markierung im Transkript, die den genauen Zeitpunkt einer Aussage in der Originalaufnahme angibt (z. B. [05:33]). Erleichtert das Auffinden von Textstellen in langen Aufnahmen und ist Standard bei erweiterten Transkriptionen.
- SRT-Datei (SubRip Subtitle)
- Standardformat für Untertitel. Enthält nummerierten Text mit Start- und Endzeit. Wird von YouTube, Vimeo und den meisten Videoplattformen unterstützt. tolingo liefert Transkripte auf Wunsch auch im .srt-Format.
- Sprecherdiarisierung
- Automatische oder manuelle Zuordnung von Textpassagen zu einzelnen Sprechern in einer Aufnahme. Bei KI-Transkriptionen als „Speaker 1", „Speaker 2" etc. Im Post-Editing werden diese durch die tatsächlichen Namen ersetzt, wenn bekannt.
Häufige Fragen zum Transkriptionsservice
Antworten auf die wichtigsten Fragen
Was kostet eine Transkription bei tolingo?
KI-Transkription ab 1,50 €/Minute, Smart (KI + Post-Editing) ab 6,50 €/Minute. Das Premium-Paket (Transkription + Übersetzung) erhalten Sie auf Anfrage. Der genaue Preis kann je nach Sprache und Aufnahmequalität variieren. Jedes Angebot enthält einen Festpreis.
Wie schnell wird meine Transkription fertig?
Die KI-Transkription selbst dauert nur wenige Minuten. Mit Projektmanagement und Post-Editing rechnen Sie mit 1 Werktag (KI), 3 Werktagen (Smart) oder 4+ Werktagen (Premium). Für eilige Projekte bieten wir Express und Super-Express.
Welche Audio- und Videoformate werden akzeptiert?
Audio: MP3, WAV, FLAC, M4A, AAC, DSS, GSM, MP2, MPA, OGG. Video: MP4, MOV, AVI, WMV, MXF, FLV, MPEG, MPG, 3GP, WebM, M4V, TS. Sie erhalten das Transkript als Word-Datei (.docx), auf Wunsch auch als .srt, .txt oder .pdf.
In welchen Sprachen bieten Sie Transkriptionen an?
In über 25 Sprachen, darunter Deutsch, Englisch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Russisch, Türkisch, Chinesisch, Japanisch, Koreanisch, Arabisch und alle skandinavischen Sprachen. Die vollständige Liste erhalten Sie auf Anfrage oder auf unserer Sprachenseite.
Kann ich die Transkription auch übersetzen lassen?
Ja. Unser Premium-Paket kombiniert Transkription und Fachübersetzung in einem Projekt. Das Transkript dient direkt als Ausgangstext für die Übersetzung in eine oder mehrere Zielsprachen (220+ Sprachkombinationen).
Wie vertraulich werden meine Aufnahmen behandelt?
Alle Dateien werden über SSL-verschlüsselte Verbindungen übertragen. Unser Informationssicherheitsmanagement ist nach ISO 27001 zertifiziert. Auf Wunsch schließen wir eine gesonderte Vertraulichkeitsvereinbarung (NDA) ab.
Einfache oder erweiterte Transkription: Was ist der Unterschied?
Bei der einfachen Transkription wird der gesprochene Text wörtlich übernommen, inklusive Füllwörter und grammatikalischer Fehler. Die erweiterte Transkription bereinigt Dialektfärbungen, entfernt nonverbale Laute, setzt Zeitstempel und markiert Pausen. Details finden Sie in unserem Interview-Transkription-Guide.
Wie bestelle ich eine Transkription?
Am besten per E-Mail oder Kontaktformular. Senden Sie uns Ihre Datei (oder einen Ausschnitt für ein Testangebot), nennen Sie die gewünschte Sprache und den Regelsatz. Wir erstellen Ihnen ein Angebot mit Festpreis und Lieferdatum.
