Analiza inżynierska: Jak testowaliśmy modele Stenograf STT i Whisper
Jako CTO Stenografu, zajmuję się sercem naszej technologii — modelami AI, które przekładają mowę na tekst. Wiele osób pyta, skąd wiemy, że nasz model STT jest lepszy od potężnego Whispera OpenAI. Odpowiedź jest prosta i oparta na twardych danych: w maju i czerwcu 2025 roku przeprowadziliśmy szczegółowe testy na publicznie dostępnych, zróżnicowanych zbiorach danych mowy, które są standardem w branży. To dzięki tej rzetelnej metodologii możemy z całą pewnością stwierdzić, że Stenograf STT w polskiej mowie osiąga istotnie lepsze wyniki od swojego konkurenta.
Metodologia testów WER: Dlaczego to, na czym testujemy, ma znaczenie
Porównywanie modeli transkrypcji to jak testowanie samochodów – nie wystarczy sprawdzić prędkości maksymalnej na torze. Trzeba je przetestować w różnych warunkach, aby ocenić ich faktyczną wydajność. W przypadku modeli ASR (Automatic Speech Recognition) te "różne warunki" to zróżnicowane zbiory danych, które odzwierciedlają różne scenariusze użycia, takie jak:
Jakość dźwięku: Czyste nagrania studyjne vs. nagrania z szumami tła.
Rodzaj mowy: Oficjalne przemówienia, spontaniczne rozmowy telefoniczne, spotkania biznesowe.
Akcenty i dykcje: Różni mówcy, tempo mowy, a nawet wtrącenia.
Dlatego do testów wybraliśmy dwa kluczowe, ogólnodostępne zbiory danych, które są uznane w środowisku naukowym i deweloperskim za złote standardy do ewaluacji modeli STT/ASR dla języka polskiego.
Zbiory danych i wyniki
1. Common Voice Polish
Czym jest? Common Voice to otwarty projekt fundacji Mozilla, który tworzy duży, wielojęzyczny zbiór danych mowy. Nagrania pochodzą od tysięcy wolontariuszy, co sprawia, że dane są bardzo zróżnicowane pod względem wieku, płci i akcentów. To idealny zbiór do testowania, jak model radzi sobie z mową w "naturalnym środowisku".
Nasze wyniki (WER — Word Error Rate (mniej=lepiej)):
Stenograf STT: 7.47% WER
Whisper large-v3: 10.81% WER
Niższy wynik WER oznacza mniejszą liczbę błędów. Jak widać, na tym zbiorze Stenograf STT generuje ponad 30% mniej błędów niż Whisper, co potwierdza jego przewagę w transkrypcji naturalnej, spontanicznej mowy.
2. Korpus mowy polskiej — Politechniki Śląskiej
Czym jest? To jeden z najbardziej cenionych, akademickich zbiorów danych dla polskiej mowy, stworzony przez Politechnikę Śląską. Jest to zbiór nagrań o bardzo wysokiej jakości, często wykorzystywany do rzetelnej oceny modeli ASR. Zbiór ten pozwala nam ocenić precyzję modeli w warunkach kontrolowanych, zbliżonych do nagrań studyjnych, wykładów czy profesjonalnych podcastów.
Nasze wyniki (WER (mniej=lepiej)):
Stenograf STT: 5.07% WER
Whisper large-v3: 6.62% WER
Na tym zbiorze Stenograf STT okazał się bardziej precyzyjny, popełniając 23% mniej błędów niż Whisper. Pokazuje to, że nasz model nie tylko świetnie radzi sobie z naturalną mową, ale także dominuje w transkrypcji wysokiej jakości nagrań.
3. Parlament Europejski (Voxpopuli)
Czym jest? Voxpopuli to ogromny, wielojęzyczny zbiór danych mowy, pochodzący z nagrań posiedzeń Parlamentu Europejskiego. To unikalne źródło, które zawiera nagrania w wielu językach, w tym w polskim, z profesjonalnych wystąpień i debat. Jest to zbiór, na którym modele muszą radzić sobie z formalnym językiem, specyficznym słownictwem politycznym i wystąpieniami publicznymi.
Nasze wyniki (WER (mniej=lepiej)):
Stenograf STT: 8.05% WER
Whisper large-v3: 12.47% WER
Na tym zbiorze Stenograf STT osiągnął wynik, który oznacza 35% mniej błędów niż Whisper. Ta różnica jest szczególnie istotna, ponieważ pokazuje, że nasz model doskonale radzi sobie z transkrypcją formalnych wypowiedzi i skomplikowanego słownictwa, co jest kluczowe w wielu branżach, np. w transkrypcji rozpraw sądowych czy spotkań korporacyjnych.
Konkluzja inżyniera
Wyniki na tych trzech niezależnych i uznanych zbiorach danych są jednoznaczne. Stenograf STT konsekwentnie osiąga niższe wartości WER w porównaniu do Whisper, co oznacza po prostu mniej błędów.
To nie jest przypadek. To efekt naszej dedykowanej architektury, która została zoptymalizowana pod kątem złożoności fonetycznej i gramatycznej języka polskiego. Whisper, jako model wielojęzyczny, musi kompromisować, by obsłużyć kilkadziesiąt języków naraz. Nasz model, niczym sportowy samochód zaprojektowany do konkretnego wyścigu, jest skupiony wyłącznie na jednym zadaniu – i robi to wyjątkowo dobrze.
Dla nas jako inżynierów, te liczby to dowód na to, że nasza praca ma realne przełożenie na jakość produktu, a dla Was — klientów — jest to gwarancja precyzji i wydajności.
Testy porównawcze, na bazie których przedstawiane są statystyki, zostały przeprowadzone w maju i czerwcu 2025 roku.
Paweł Cyrta — specjalista ds. dźwięku, głosu, muzyki i multimediów. Doświadczony badacz i twórca oprogramowania specjalizujący się w analizie i przetwarzaniu sygnałów muzycznych, głosowych i dźwiękowych. Posiada obszerną wiedzę na temat systemów informatycznych, implementacji oprogramowania Open Source, Data Science, Data mining, Web mining, Text mining, NLP, Big Data, Machine Learning (HMM, GMM, SVM, ..., BDN, Deep Learning, ...). Dysponuje głęboką wiedzą z dziedziny dźwięku i rozwiązań audio, systemów emisji, przetwarzania, kompresowania i kodowania dźwięku. Nie są mu obce psychoakustyka, akustyka pomieszczeń, modelowanie 3D, programowanie i inżynieria dźwięku. Stale pogłębia swoją wiedzę pracując nad rozwojem aplikacji Stenograf wraz z zespołem deweloperów.
