Порівняння продуктивності: швидкість і пропускна здатність моделей Stenograf STT і Whisper
У моєму попередньому дописі я детально обговорив точність наших моделей, спираючись на показники помилок (WER). Цього разу я хотів би заглибитися в інші, не менш важливі аспекти продуктивності: швидкість і пропускну здатність. У світі штучного інтелекту, де кожна мілісекунда має значення, саме ці параметри визначають практичну корисність моделі в бізнес-застосуваннях.
Ми розробили Stenograf STT (Стенограф STT) таким чином, щоб він був не тільки точним, але й надзвичайно ефективним. Ми досягли цього, оптимізувавши його для роботи на відносно скромних апаратних ресурсах, що є величезною перевагою над моделлю Whisper. Порівняльні тести, на основі яких представлені статистичні дані, були проведені в травні та червні 2025 року.
Час обробки: гонка на хвилини
Швидкість моделі вимірюється за допомогою коефіцієнта RTF (Real Time Factor). RTF — це відношення часу обробки аудіо до його фактичної тривалості. Чим нижче значення RTF, тим швидше працює модель.
- Stenograf STT: 0,0038 RTF
- Whisper large-v3: 0,21 RTF
Як бачимо, різниця колосальна. Наш монашу модель працює в 30 разів швидше, ніж Whisper. Обробка однієї години аудіоматеріалу займає менше ніж 20 секунд, тоді як Whisper потребує для цього аж 12 хвилин. Тести проводилися на хмарному сервері з картою T4. Це робить Stenograf STT неперевершений у додатках, що вимагають майже миттєвої транскрипції, таких як обслуговування клієнтів або обробка в режимі реального часу.
Пропускна здатність (Throughput): Сила в цифрах
Пропускна здатність — це обсяг роботи, який система може виконати за певний час. Простіше кажучи, це міра того, скільки годин аудіо ми можемо обробити за одну годину.
- Stenograf STT: 260 годин за годину
- Whisper large-v3: 5 годин на годину
Відповідно до вищезазначеного, Stenograf STT є більш ніж у 50 разів ефективнішим за Whisper.
Така пропускна здатність дозволяє обробляти величезні обсяги даних, що є ключовим фактором у масштабованих рішеннях для великих підприємств, наприклад, в аналізі записів з call-центрів або моніторингу ЗМІ.
Підсумок: Перевага завдяки оптимізації
Ефективність, швидкість і низьке споживання ресурсів — це не додаткові функції, а основа нашої технології. Ми оптимізували Stenograf STT, щоб забезпечити чудове співвідношення якості та продуктивності на польському ринку. На відміну від універсальної моделі Whisper, яка повинна бути великою, щоб підтримувати багато мов, наша модель є гнучкою і зосередженою на одній меті. Це дозволяє нам забезпечувати швидкість і пропускну здатність, що ставить нас у число найкращих рішень у галузі штучного інтелекту.
Порівняльні тести, на основі яких надаються статистичні дані, були проведені в травні та червні 2025 року.
Paweł Cyrta — ekspert ds. detekcji audio deepfake oraz systemów biometrii głosowej. Jako Head of Voice AI w Stenograf odpowiada za rozwój silników Automatic Speech Recognition (ASR) oraz autorskiego modelu Audio Deepfake Detection (ADD), który osiąga 89% skuteczności w wykrywaniu klonowania głosu w warunkach rzeczywistych (benchmark Deepfake-Eval-2024). Specjalizuje się w technologiach voice anti-spoofing oraz projektowaniu systemów chroniących organizacje przed atakami typu CEO Fraud i Voice Phishing. Dzięki połączeniu kompetencji w obszarze Machine Learning (Deep Learning, Transformers) z inżynierią sygnału audio, tworzy narzędzia zdolne do wykrywania manipulacji akustycznych niesłyszalnych dla ludzkiego ucha.

