Porównanie wydajności: Szybkość i przepustowość modeli Stenograf STT i Whisper

W moim poprzednim wpisie szczegółowo omówiłem precyzję naszych modeli, opierając się na miarach błędu (WER). Tym razem chciałbym zagłębić się w inne, równie kluczowe aspekty wydajności: szybkośćprzepustowość. W świecie AI, gdzie liczy się każda milisekunda, to właśnie te parametry decydują o praktycznej użyteczności modelu w zastosowaniach biznesowych.

Zaprojektowaliśmy Stenograf STT tak, aby był nie tylko precyzyjny, ale również ekstremalnie wydajny. Osiągnęliśmy to, optymalizując go do działania na relatywnie skromnych zasobach sprzętowych, co stanowi ogromną przewagę nad modelem Whisper. Testy porównawcze, na bazie których przedstawiane są statystyki, zostały przeprowadzone w maju i czerwcu 2025 roku.

Czas przetwarzania: Wyścig na minuty

Voicy blazing fast.webp

Szybkość modelu mierzona jest za pomocą współczynnika RTF (Real Time Factor). RTF to stosunek czasu przetwarzania audio do jego faktycznej długości. Im niższa wartość RTF, tym szybciej model działa.

  • Stenograf STT: 0.0038 RTF

  • Whisper large-v3: 0.21 RTF

Jak widać, różnica jest kolosalna. Nasz model działa ponad 30 razy szybciej niż Whisper. Przetworzenie jednej godziny materiału audio zajmuje mu poniżej 20 sekund, podczas gdy Whisper potrzebuje na to aż 12 minut. Testy odbyły się na serwerze chmurowym z kartą T4. To sprawia, że w aplikacjach wymagających niemal natychmiastowej transkrypcji, takich jak obsługa klienta czy przetwarzanie na żywo, Stenograf STT jest bezkonkurencyjny.

Przepustowość (Throughput): Siła w liczbach

Voicy high volume throughput.webp

Przepustowość to ilość pracy, jaką system może wykonać w określonym czasie. Mówiąc prościej, to miara tego, ile godzin audio jesteśmy w stanie przetworzyć w ciągu jednej godziny.

  • Stenograf STT:  260 godzin w godzinę

  • Whisper large-v3:  5 godzin w godzinę

Zgodnie z powyższym Stenograf STT jest ponad 50 razy bardziej wydajny niż Whisper. 
Taka przepustowość pozwala na przetwarzanie gigantycznych wolumenów danych, co jest kluczowe w skalowalnych rozwiązaniach dla dużych przedsiębiorstw, na przykład w analizie nagrań z call center czy monitoringu mediów.

Podsumowanie: Przewaga dzięki optymalizacji

Wydajność, szybkość i niskie zużycie zasobów to nie dodatki, ale fundament naszej technologii. Zoptymalizowaliśmy Stenograf STT, aby zapewniał wyśmienity stosunek jakości do wydajności na polskim rynku. W przeciwieństwie do uniwersalnego modelu Whisper, który musi być duży, aby obsłużyć wiele języków, nasz model jest zwinny i skupiony na jednym celu. To pozwala nam dostarczać szybkość i przepustowość, która stawia nas w czołówce najlepszych rozwiązań AI.

Testy porównawcze, na bazie których podawane są statystyki, zostały przeprowadzone w maju i czerwcu 2025 roku.

Paweł Cyrta
Paweł CyrtaHead of Voice AI @ Stenograf

Paweł Cyrta — ekspert ds. detekcji audio deepfake oraz systemów biometrii głosowej. Jako Head of Voice AI w Stenograf odpowiada za rozwój silników Automatic Speech Recognition (ASR) oraz autorskiego modelu Audio Deepfake Detection (ADD), który osiąga 89% skuteczności w wykrywaniu klonowania głosu w warunkach rzeczywistych (benchmark Deepfake-Eval-2024).

Specjalizuje się w technologiach voice anti-spoofing oraz projektowaniu systemów chroniących organizacje przed atakami typu CEO Fraud i Voice Phishing. Dzięki połączeniu kompetencji w obszarze Machine Learning (Deep Learning, Transformers) z inżynierią sygnału audio, tworzy narzędzia zdolne do wykrywania manipulacji akustycznych niesłyszalnych dla ludzkiego ucha.

Mikołaj Rej

„Polacy nie gęsi,

iż swe rozwiązania językowe mają...

– Mikołaj Rej”

Chcesz rozpocząć?Otrzymuj doskonałetranskrypcje od ręki!Korzystaj z polskiej technologiiwspółpracuj z polskim zespołem!

Zyskaj czas i pieniądze

Zobacz również