Blog - Detekcja Deepfake Audio: Wyniki Stenograf v1 na Deepfake-Eval-2024

Jak dobrze model Stenograf radzi sobie w detekcji audio deepfake?

W dobie błyskawicznego rozwoju sztucznej inteligencji, odróżnienie prawdy od manipulacji staje się jednym z największych wyzwań cyfrowego świata. W Stenografie nie tylko przyglądamy się tym zmianom – my budujemy narzędzia, które pozwalają im stawić czoła.

Przedstawiamy model Stenograf Audio DeepFake Detection v1 – nasz autorski model, który skutecznie w walczy ze zmanipulowanym dźwiękiem w brutalnej rzeczywistość skompresowanego i zaszumionego audio.

Serce technologii: hybrydowe podejście

Nasz system nie opiera się na prostych algorytmach. Wykorzystujemy najbardziej zaawansowane architektury Transformer oraz podejście Self-Supervised Learning (SSL). Dzięki temu system przeprowadza głęboką ekstrakcję cech sygnału mowy, dokonując precyzyjnej klasyfikacji binarnej:

Bona fide: Nagranie autentyczne.
Spoofed: Nagranie zmanipulowane lub syntetyczne.

Wyniki Stenograf ADD v1: 97,39% dokładności na zbiorze FakeOrReal

Skuteczność modelu mierzymy za pomocą Equal Error Rate (EER). Jest to punkt, w którym system osiąga idealną równowagę między błędnym odrzuceniem autentycznego głosu a zaakceptowaniem fałszu. Im niższy EER, tym wyższe bezpieczeństwo i mniejsza liczba fałszywych alarmów, które blokują Twoich prawdziwych klientów.

W najnowszej wersji Stenograf ADD v1 odnotowaliśmy gigantyczny skok jakościowy w porównaniu do wersji v0:

Zbiór danych	Metryka	Wynik (v1)	Progres (v0 vs v1)
FakeOrReal (Audiobooki i syntezatory) - dobra jakość, łatwiej o poprawność rozpoznania Voice deepfake	Accuracy	97,39%	Skok z 85,16%
	EER	2,61%	Spadek z 14,84%
Deepfake-Eval-2024 (Social Media) - słaba jakość, trudniej o poprawność rozpoznania voice deepfake	Accuracy	89,00%	Skok z 75,00%
	EER	12,52%	Spadek z 27,76%

Dlaczego skuteczność 89% na Deepfake-Eval-2024 to realny poziom bezpieczeństwa?

Oszuści nie dzwonią ze studia nagraniowego!

Maskują ślady syntezy AI poprzez celowe obniżanie jakości nagrania. Stenograf został na to uodporniony:

Zaszumienie kodekami:
Skutecznie analizujemy dźwięk poddany silnej kompresji komunikatorów (WhatsApp, Telegram, Messenger) oraz połączeń komórkowych LTE, GSM.
Ukrycie się w dużym szumie:
Wykrywamy anomalie AI nawet w trudnych warunkach (niskim Signal-to-Noise ratio) – przy zgiełku ulicznym, hałasie biurowym czy celowo dodanych zakłóceniach.
Symulowanie urządzeniami:
Rozpoznajemy nagrania powstające podczas tzw. re-recordingu (odtwarzanie fake’a z głośnika i ponowne nagrywanie mikrofonem).

Testowany ,,in the wild” – od X do TikToka

Zbiór danych Deepfake-Eval-2024, opracowany przez organizację non-profit TrueMedia, to jeden z najbardziej wymagających benchmarków na świecie, gromadzący realne treści deepfake krążące w sieci. Osiągnięcie w nim 89% dokładności to sygnał, że Stenograf ADD jest gotowy na realne wyzwania, przed którymi stają firmy i instytucje publiczne.

Te liczby to nie teoria – to wynik starcia Stenograf ADD v1 z najbardziej wymagającym sędzią: benchmarkiem DeepFake-Eval-2024. To zbiór danych, który zawiera dane z najróżniejszych źródeł bezpośrednio z mediów społecznościowych. Najwięcej próbek pochodzi z serwisu X (32,1%), ale monitorujemy też TikTok (21,3%), YouTube (7,1%) oraz Facebook i Instagram.

Polski „szum” i agresywna augmentacja danych: Sekretny sos Stenografu

Choć walka z nowymi metodami syntezy mowy to proces ciągły, wersja Stenograf ADD v1 już stanowi potężną barierę ochronną, minimalizując ryzyko oszustw głosowych.

Stenograf ADD v1 był trenowany na tysiącach godzin nagrań z użyciem agresywnej augmentacji danych, w tym na wytworzonym przez nas zbiorze dodatkowym dla języka polskiego, to dlatego osiąga wysokie 89% na wymagającym benchmarku Deepfake-Eval-2024, a nie tylko na "czystych" nagraniach z audiobooków.

Chcesz sprawdzić, jak skąd konieczność zabezpieczenia Twojej organizacji w model ochronę Audio DeepFake Detection?

Skontaktuj się z nami, aby dowiedzieć się więcej o testach API lub wdrożeniu modelu On-Premise i zabezpieczyć swoją organizację przed nową falą oszustw Voice AI.

Paweł CyrtaHead of Voice AI @ Stenograf

Paweł Cyrta — ekspert ds. detekcji audio deepfake oraz systemów biometrii głosowej. Jako Head of Voice AI w Stenograf odpowiada za rozwój silników Automatic Speech Recognition (ASR) oraz autorskiego modelu Audio Deepfake Detection (ADD), który osiąga 89% skuteczności w wykrywaniu klonowania głosu w warunkach rzeczywistych (benchmark Deepfake-Eval-2024). Specjalizuje się w technologiach voice anti-spoofing oraz projektowaniu systemów chroniących organizacje przed atakami typu CEO Fraud i Voice Phishing. Dzięki połączeniu kompetencji w obszarze Machine Learning (Deep Learning, Transformers) z inżynierią sygnału audio, tworzy narzędzia zdolne do wykrywania manipulacji akustycznych niesłyszalnych dla ludzkiego ucha.

Detekcja deepfake audio z mediów społecznościowych