Porównanie wydajności: Szybkość i przepustowość modeli Stenograf STT i Whisper

W moim poprzednim wpisie szczegółowo omówiłem precyzję naszych modeli, opierając się na miarach błędu (WER). Tym razem chciałbym zagłębić się w inne, równie kluczowe aspekty wydajności: szybkośćprzepustowość. W świecie AI, gdzie liczy się każda milisekunda, to właśnie te parametry decydują o praktycznej użyteczności modelu w zastosowaniach biznesowych.

Zaprojektowaliśmy Stenograf STT tak, aby był nie tylko precyzyjny, ale również ekstremalnie wydajny. Osiągnęliśmy to, optymalizując go do działania na relatywnie skromnych zasobach sprzętowych, co stanowi ogromną przewagę nad modelem Whisper. Testy porównawcze, na bazie których przedstawiane są statystyki, zostały przeprowadzone w maju i czerwcu 2025 roku.

Czas przetwarzania: Wyścig na minuty

Voicy blazing fast.webp

Szybkość modelu mierzona jest za pomocą współczynnika RTF (Real Time Factor). RTF to stosunek czasu przetwarzania audio do jego faktycznej długości. Im niższa wartość RTF, tym szybciej model działa.

  • Stenograf STT: 0.0038 RTF

  • Whisper large-v3: 0.21 RTF

Jak widać, różnica jest kolosalna. Nasz model działa ponad 30 razy szybciej niż Whisper. Przetworzenie jednej godziny materiału audio zajmuje mu poniżej 20 sekund, podczas gdy Whisper potrzebuje na to aż 12 minut. Testy odbyły się na serwerze chmurowym z kartą T4. To sprawia, że w aplikacjach wymagających niemal natychmiastowej transkrypcji, takich jak obsługa klienta czy przetwarzanie na żywo, Stenograf STT jest bezkonkurencyjny.

Przepustowość (Throughput): Siła w liczbach

Voicy high volume throughput.webp

Przepustowość to ilość pracy, jaką system może wykonać w określonym czasie. Mówiąc prościej, to miara tego, ile godzin audio jesteśmy w stanie przetworzyć w ciągu jednej godziny.

  • Stenograf STT:  260 godzin w godzinę

  • Whisper large-v3:  5 godzin w godzinę

Zgodnie z powyższym Stenograf STT jest ponad 50 razy bardziej wydajny niż Whisper. 
Taka przepustowość pozwala na przetwarzanie gigantycznych wolumenów danych, co jest kluczowe w skalowalnych rozwiązaniach dla dużych przedsiębiorstw, na przykład w analizie nagrań z call center czy monitoringu mediów.

Podsumowanie: Przewaga dzięki optymalizacji

Wydajność, szybkość i niskie zużycie zasobów to nie dodatki, ale fundament naszej technologii. Zoptymalizowaliśmy Stenograf STT, aby zapewniał wyśmienity stosunek jakości do wydajności na polskim rynku. W przeciwieństwie do uniwersalnego modelu Whisper, który musi być duży, aby obsłużyć wiele języków, nasz model jest zwinny i skupiony na jednym celu. To pozwala nam dostarczać szybkość i przepustowość, która stawia nas w czołówce najlepszych rozwiązań AI.

Testy porównawcze, na bazie których podawane są statystyki, zostały przeprowadzone w maju i czerwcu 2025 roku.

Paweł Cyrta
Paweł CyrtaHead of Voice AI @ Stenograf

Paweł Cyrta — specjalista ds. dźwięku, głosu, muzyki i multimediów. Doświadczony badacz i twórca oprogramowania specjalizujący się w analizie i przetwarzaniu sygnałów muzycznych, głosowych i dźwiękowych. Posiada obszerną wiedzę na temat systemów informatycznych, implementacji oprogramowania Open Source, Data Science, Data mining, Web mining, Text mining, NLP, Big Data, Machine Learning (HMM, GMM, SVM, ..., BDN, Deep Learning, ...). Dysponuje głęboką wiedzą z dziedziny dźwięku i rozwiązań audio, systemów emisji, przetwarzania, kompresowania i kodowania dźwięku. Nie są mu obce psychoakustyka, akustyka pomieszczeń, modelowanie 3D, programowanie i inżynieria dźwięku. Stale pogłębia swoją wiedzę pracując nad rozwojem aplikacji Stenograf wraz z zespołem deweloperów.

Chcesz rozpocząć?Twórz napisyszybko i przyjemnie!

Zyskaj czas i pieniądze

Zobacz również