Porównanie wydajności: Szybkość i przepustowość modeli Stenograf STT i Whisper
W moim poprzednim wpisie szczegółowo omówiłem precyzję naszych modeli, opierając się na miarach błędu (WER). Tym razem chciałbym zagłębić się w inne, równie kluczowe aspekty wydajności: szybkość i przepustowość. W świecie AI, gdzie liczy się każda milisekunda, to właśnie te parametry decydują o praktycznej użyteczności modelu w zastosowaniach biznesowych.
Zaprojektowaliśmy Stenograf STT tak, aby był nie tylko precyzyjny, ale również ekstremalnie wydajny. Osiągnęliśmy to, optymalizując go do działania na relatywnie skromnych zasobach sprzętowych, co stanowi ogromną przewagę nad modelem Whisper. Testy porównawcze, na bazie których przedstawiane są statystyki, zostały przeprowadzone w maju i czerwcu 2025 roku.
Czas przetwarzania: Wyścig na minuty
Szybkość modelu mierzona jest za pomocą współczynnika RTF (Real Time Factor). RTF to stosunek czasu przetwarzania audio do jego faktycznej długości. Im niższa wartość RTF, tym szybciej model działa.
Stenograf STT: 0.0038 RTF
Whisper large-v3: 0.21 RTF
Jak widać, różnica jest kolosalna. Nasz model działa ponad 30 razy szybciej niż Whisper. Przetworzenie jednej godziny materiału audio zajmuje mu poniżej 20 sekund, podczas gdy Whisper potrzebuje na to aż 12 minut. Testy odbyły się na serwerze chmurowym z kartą T4. To sprawia, że w aplikacjach wymagających niemal natychmiastowej transkrypcji, takich jak obsługa klienta czy przetwarzanie na żywo, Stenograf STT jest bezkonkurencyjny.
Przepustowość (Throughput): Siła w liczbach
Przepustowość to ilość pracy, jaką system może wykonać w określonym czasie. Mówiąc prościej, to miara tego, ile godzin audio jesteśmy w stanie przetworzyć w ciągu jednej godziny.
Stenograf STT: 260 godzin w godzinę
Whisper large-v3: 5 godzin w godzinę
Zgodnie z powyższym Stenograf STT jest ponad 50 razy bardziej wydajny niż Whisper.
Taka przepustowość pozwala na przetwarzanie gigantycznych wolumenów danych, co jest kluczowe w skalowalnych rozwiązaniach dla dużych przedsiębiorstw, na przykład w analizie nagrań z call center czy monitoringu mediów.
Podsumowanie: Przewaga dzięki optymalizacji
Wydajność, szybkość i niskie zużycie zasobów to nie dodatki, ale fundament naszej technologii. Zoptymalizowaliśmy Stenograf STT, aby zapewniał wyśmienity stosunek jakości do wydajności na polskim rynku. W przeciwieństwie do uniwersalnego modelu Whisper, który musi być duży, aby obsłużyć wiele języków, nasz model jest zwinny i skupiony na jednym celu. To pozwala nam dostarczać szybkość i przepustowość, która stawia nas w czołówce najlepszych rozwiązań AI.
Testy porównawcze, na bazie których podawane są statystyki, zostały przeprowadzone w maju i czerwcu 2025 roku.
Paweł Cyrta — specjalista ds. dźwięku, głosu, muzyki i multimediów. Doświadczony badacz i twórca oprogramowania specjalizujący się w analizie i przetwarzaniu sygnałów muzycznych, głosowych i dźwiękowych. Posiada obszerną wiedzę na temat systemów informatycznych, implementacji oprogramowania Open Source, Data Science, Data mining, Web mining, Text mining, NLP, Big Data, Machine Learning (HMM, GMM, SVM, ..., BDN, Deep Learning, ...). Dysponuje głęboką wiedzą z dziedziny dźwięku i rozwiązań audio, systemów emisji, przetwarzania, kompresowania i kodowania dźwięku. Nie są mu obce psychoakustyka, akustyka pomieszczeń, modelowanie 3D, programowanie i inżynieria dźwięku. Stale pogłębia swoją wiedzę pracując nad rozwojem aplikacji Stenograf wraz z zespołem deweloperów.
