Інженерний аналіз: як ми тестували моделі Stenograf STT і Whisper

Як технічний директор Стенограф, я займаюся серцем нашої технології — моделями штучного інтелекту, які перекладають мову на текст. Багато хто запитує, звідки ми знаємо, що наша модель STT краща за потужну Whisper OpenAI. Відповідь проста і базується на твердих даних: у травні та червні 2025 року ми провели детальні тести на загальнодоступних, різноманітних наборах мовних даних, які є стандартом у галузі. Завдяки цій надійній методології ми можемо з упевненістю стверджувати, що Stenograf STT у польській мові досягає значно кращих результатів, ніж його конкурент.

Методологія тестування WER: чому те, на чому ми тестуємо, має значення

Порівняння моделей транскрипції схоже на тестування автомобілів – недостатньо перевірити максимальну швидкість на треку. Їх потрібно протестувати в різних умовах, щоб оцінити їхню фактичну продуктивність. У випадку моделей ASR (Automatic Speech Recognition) ці «різні умови» – це різноманітні набори даних, які відображають різні сценарії використання, такі як:

  • Якість звуку: чисті студійні записи проти записів із фоновим шумом.
  • Тип мовлення: офіційні промови, спонтанні телефонні розмови, ділові зустрічі.
  • Акценти та дикція: різні оратори, темп мовлення і навіть вставки.

Тому для тестування ми вибрали два ключові, загальнодоступні набори даних, які в наукових та розробницьких колах вважаються золотим стандартом для оцінки моделей STT/ASR для польської мови.

Набори даних та результати

1. Common Voice Polish (Польська мова звичайного голосу)

Що це? Common Voice (Польська мова звичайного голосу) — це відкритий проєкт фонду Mozilla, який створює великий багатомовний набір даних мовлення. Записи походять від тисяч волонтерів, що робить дані дуже різноманітними за віком, статтю та акцентами. Це ідеальний набір для тестування того, як модель справляється з мовленням у «природному середовищі».

Наші результати (WER — Word Error Rate (менше = краще)):

  • Стенограф STT: 7,47% WER
  • Whisper large-v3: 10,81% WER

Нижчий результат WER означає меншу кількість помилок. Як бачимо, на цьому наборі Stenograf STT генерує на понад 30% менше помилок, ніж Whisper, що підтверджує його перевагу в транскрипції природної, спонтанної мови.

2. Корпус польської мови — Сілезький політехнічний університет

Що це? Це один з найбільш цінованих академічних наборів даних для польської мови, створений Сілезьким політехнічним університетом. Це набір записів дуже високої якості, який часто використовується для надійної оцінки моделей ASR. Ця колекція дозволяє нам оцінити точність моделей в контрольованих умовах, близьких до студійних записів, лекцій або професійних подкастів.

Наші результати (WER (менше = краще)):

  • Stenograf STT: 5,07% WER
  • Whisper large-v3: 6,62% WER

У цій колекції Stenograf STT виявився більш точним, зробивши на 23% менше помилок, ніж Whisper. Це показує, що нашу модель не тільки чудово справляється з природною мовою, але й домінує в транскрипції високоякісних записів.

3. Європейський парламент (Voxpopuli)

Що це? Voxpopuli — це величезний багатомовний набір мовних даних, отриманих із записів засідань Європейського парламенту. Це унікальне джерело, яке містить записи професійних виступів і дебатів багатьма мовами, включаючи польську. Це набір, в якому моделі повинні справлятися з формальною мовою, специфічною політичною лексикою та публічними виступами.

Наші результати (WER (менше = краще)):

  • Стенограф STT: 8,05% WER
  • Whisper large-v3: 12,47% WER

У цьому наборі Stenograf STT досяг результату, який означає на 35% менше помилок, ніж Whisper. Ця різниця є особливо важливою, оскільки вона показує, що нашу модель чудово справляється з транскрипцією формальних висловлювань і складного словника, що є ключовим у багатьох галузях, наприклад, у транскрипції судових засідань або корпоративних зустрічей.

Висновок інженера

Результати на цих трьох незалежних і визнаних наборах даних є однозначними. Stenograf STT послідовно досягає нижчих значень WER у порівнянні з Whisper, що просто означає менше помилок.

Це не випадково. Це результат нашої спеціалізованої архітектури, яка була оптимізована з урахуванням фонетичної та граматичної складності польської мови. Whisper, як багатомовну модель, повинен йти на компроміси, щоб обслуговувати кілька десятків мов одночасно. Наша модель, як спортивний автомобіль, розроблений для конкретної гонки, зосереджена виключно на одному завданні — і робить це надзвичайно добре.

Для нас, інженерів, ці цифри є доказом того, що наша робота має реальний вплив на якість продукту, а для вас, клієнтів, це гарантія точності та ефективності.

Порівняльні тести, на основі яких представлені статистичні дані, були проведені в травні та червні 2025 року.

Paweł Cyrta
Paweł CyrtaHead of Voice AI @ Stenograf

Paweł Cyrta — specjalista ds. dźwięku, głosu, muzyki i multimediów. Doświadczony badacz i twórca oprogramowania specjalizujący się w analizie i przetwarzaniu sygnałów muzycznych, głosowych i dźwiękowych. Posiada obszerną wiedzę na temat systemów informatycznych, implementacji oprogramowania Open Source, Data Science, Data mining, Web mining, Text mining, NLP, Big Data, Machine Learning (HMM, GMM, SVM, ..., BDN, Deep Learning, ...). Dysponuje głęboką wiedzą z dziedziny dźwięku i rozwiązań audio, systemów emisji, przetwarzania, kompresowania i kodowania dźwięku. Nie są mu obce psychoakustyka, akustyka pomieszczeń, modelowanie 3D, programowanie i inżynieria dźwięku. Stale pogłębia swoją wiedzę pracując nad rozwojem aplikacji Stenograf wraz z zespołem deweloperów.

Хочеш почати?Миттєво робітьпідписи і отримуйте задоволення!

Zyskaj czas i pieniądze

Дивись також