KB Whisper på kommandoraden.

KB Whisper är Kungliga bibliotekets taligenkänningsmodell för svenska, tränad på över 50 000 timmars svenskt tal och optimerad för svenska dialekter, rikssvenska och parlamentsspråk. Den ger 47% lägre ordfelsnivå (WER) jämfört med OpenAIs whisper-large-v3 på svenska.

OSTT hjälper dig transkribera i alla appar, kopplat till en snabbtangent, eller direkt via terminalen. Linux och macOS, via Berget AI svenska molninfrastruktur eller 100% lokalt på din dator.

KB Whisper

Tränad på 50 000 timmar svenska. 47% lägre WER.

KB Whisper är utvecklad av KBLab vid Kungliga biblioteket och tränad på ett unikt dataset: SVT-undertexter, riksdagsprotokoll, dialektinspelningar från Institutet för språk och folkminnen samt YouTube-kanaler med svenskt innehåll. Resultatet är en modell som förstår hela bredden av talad svenska — från formellt riksdagsspråk till regionala dialekter — och presterar långt bättre än generella Whisper-modeller på svenska. Modellen körs på Bergets infrastruktur i Sverige, vilket innebär att datan stannar i EU.

# ~/.config/ostt/ostt.toml — välj KB Whisper som standardmodell
[transcription]
provider = "berget"
model = "KBLab/kb-whisper-large"

[berget."KBLab/kb-whisper-large".params]
language = "sv"
hotwords = ["OSTT", "KBLab"]
align = true

# Välj interaktivt
ostt model

# Spela in med kortkommando, transkribera med KB Whisper, kopiera
ostt launch -c

Bäst på svenska

KB Whisper Large-v3 uppnår 5,4% WER på FLEURS och 4,1% på CommonVoice — jämfört med OpenAIs whisper-large-v3 som ger 7,8% respektive 9,5%. Det är en förbättring som märks tydligt i vardaglig diktamen, mötesanteckningar och röstkommandon.

Förstår svenska dialekter

Träningsdatan täcker dialektinspelningar från hela Sverige, riksdagstal, SVT-sändningar och ljudböcker. Modellen hanterar regional variation som generella Whisper-modeller konsekvent missar.

Data stannar i Sverige

Berget är en svensk molnleverantör. Alla transkriptioner behandlas på servrar i Sverige, vilket ger EU-lagstiftningsenlig datahantering utan att du behöver konfigurera något extra. Välj Berget när dataskydd och GDPR är krav.

Validerade Berget-optioner

Lägg till namn och facktermer med hotwords, sätt language=sv och aktivera align=true eller diarize=true när du behöver Bergets ordtidsstämplar eller talaretiketter.

Pipa till AI-verktyg

Använd -p-flaggan för att köra en bearbetningsåtgärd efter transkription. Skicka KB Whisper-output direkt till OpenCode, Claude Code eller vilket skalkommando som helst utan manuell kopiering.

Återtranskribera utan ny inspelning

OSTT sparar alla inspelningar lokalt. Kör ostt retry för att transkribera om samma ljud med KB Whisper eller byt till en annan modell — utan att tala igen.

Arbetsflöde

Från tal till användbar output.

1. Spela inTryck på ditt globala kortkommando eller kör ostt i terminalen.

2. TranskriberaKB Whisper transkriberar ljudet via Bergets API i Sverige.

3. BearbetaKör valfritt AI-prompt eller skalkommando på resultatet.

4. SkickaSkriv till stdout, kopiera till urklipp, skriv till fil eller pipa vidare.

Pipeline

Bästa svenska taligenkänningen i ditt skal.

OSTT gör KB Whisper till ett vanligt Unix-verktyg. Transkriptionsresultatet hamnar på stdout — pipa det genom jq, sed eller vilket CLI-verktyg som helst. Använd -p för att kedja bearbetningsåtgärder. Lägg till tekniska termer och egennamn i OSTT keywords en gång och förbättra träffsäkerheten i alla framtida inspelningar.

# Transkribera ett ljudklipp
ostt transcribe meeting.mp3 -o anteckningar.md

# Spela in, bearbeta med AI-åtgärd, kopiera till urklipp
ostt -p clean -c

# Transkribera och pipa vidare
ostt | mitt-skript.sh

Lägg till KB Whisper i din terminal med ett kommando.

Dokumentation Berget-leverantörens referens