Порівняння продуктивності: швидкість і пропускна здатність моделей Stenograf STT і Whisper
У моєму попередньому дописі я детально обговорив точність наших моделей, спираючись на показники помилок (WER). Цього разу я хотів би заглибитися в інші, не менш важливі аспекти продуктивності: швидкість і пропускну здатність. У світі штучного інтелекту, де кожна мілісекунда має значення, саме ці параметри визначають практичну корисність моделі в бізнес-застосуваннях.
Ми розробили Stenograf STT (Стенограф STT) таким чином, щоб він був не тільки точним, але й надзвичайно ефективним. Ми досягли цього, оптимізувавши його для роботи на відносно скромних апаратних ресурсах, що є величезною перевагою над моделлю Whisper. Порівняльні тести, на основі яких представлені статистичні дані, були проведені в травні та червні 2025 року.
Час обробки: гонка на хвилини
Швидкість моделі вимірюється за допомогою коефіцієнта RTF (Real Time Factor). RTF — це відношення часу обробки аудіо до його фактичної тривалості. Чим нижче значення RTF, тим швидше працює модель.
- Stenograf STT: 0,0038 RTF
- Whisper large-v3: 0,21 RTF
Як бачимо, різниця колосальна. Наш монашу модель працює в 30 разів швидше, ніж Whisper. Обробка однієї години аудіоматеріалу займає менше ніж 20 секунд, тоді як Whisper потребує для цього аж 12 хвилин. Тести проводилися на хмарному сервері з картою T4. Це робить Stenograf STT неперевершений у додатках, що вимагають майже миттєвої транскрипції, таких як обслуговування клієнтів або обробка в режимі реального часу.
Пропускна здатність (Throughput): Сила в цифрах
Пропускна здатність — це обсяг роботи, який система може виконати за певний час. Простіше кажучи, це міра того, скільки годин аудіо ми можемо обробити за одну годину.
- Stenograf STT: 260 годин за годину
- Whisper large-v3: 5 годин на годину
Відповідно до вищезазначеного, Stenograf STT є більш ніж у 50 разів ефективнішим за Whisper.
Така пропускна здатність дозволяє обробляти величезні обсяги даних, що є ключовим фактором у масштабованих рішеннях для великих підприємств, наприклад, в аналізі записів з call-центрів або моніторингу ЗМІ.
Підсумок: Перевага завдяки оптимізації
Ефективність, швидкість і низьке споживання ресурсів — це не додаткові функції, а основа нашої технології. Ми оптимізували Stenograf STT, щоб забезпечити чудове співвідношення якості та продуктивності на польському ринку. На відміну від універсальної моделі Whisper, яка повинна бути великою, щоб підтримувати багато мов, наша модель є гнучкою і зосередженою на одній меті. Це дозволяє нам забезпечувати швидкість і пропускну здатність, що ставить нас у число найкращих рішень у галузі штучного інтелекту.
Порівняльні тести, на основі яких надаються статистичні дані, були проведені в травні та червні 2025 року.
Paweł Cyrta — specjalista ds. dźwięku, głosu, muzyki i multimediów. Doświadczony badacz i twórca oprogramowania specjalizujący się w analizie i przetwarzaniu sygnałów muzycznych, głosowych i dźwiękowych. Posiada obszerną wiedzę na temat systemów informatycznych, implementacji oprogramowania Open Source, Data Science, Data mining, Web mining, Text mining, NLP, Big Data, Machine Learning (HMM, GMM, SVM, ..., BDN, Deep Learning, ...). Dysponuje głęboką wiedzą z dziedziny dźwięku i rozwiązań audio, systemów emisji, przetwarzania, kompresowania i kodowania dźwięku. Nie są mu obce psychoakustyka, akustyka pomieszczeń, modelowanie 3D, programowanie i inżynieria dźwięku. Stale pogłębia swoją wiedzę pracując nad rozwojem aplikacji Stenograf wraz z zespołem deweloperów.
