Detekcja deepfake audio z mediów społecznościowych
Jak dobrze model Stenograf radzi sobie w detekcji audio deepfake?
W dobie błyskawicznego rozwoju sztucznej inteligencji, odróżnienie prawdy od manipulacji staje się jednym z największych wyzwań cyfrowego świata. W Stenografie nie tylko przyglądamy się tym zmianom – my budujemy narzędzia, które pozwalają im stawić czoła.
Przedstawiamy model Stenograf Audio DeepFake Detection v1 – nasz autorski model, który skutecznie w walczy ze zmanipulowanym dźwiękiem w brutalnej rzeczywistość skompresowanego i zaszumionego audio.
Serce technologii: hybrydowe podejście
Nasz system nie opiera się na prostych algorytmach. Wykorzystujemy najbardziej zaawansowane architektury Transformer oraz podejście Self-Supervised Learning (SSL). Dzięki temu system przeprowadza głęboką ekstrakcję cech sygnału mowy, dokonując precyzyjnej klasyfikacji binarnej:
Bona fide: Nagranie autentyczne.
Spoofed: Nagranie zmanipulowane lub syntetyczne.
Wyniki Stenograf ADD v1: 97,39% dokładności na zbiorze FakeOrReal
Skuteczność modelu mierzymy za pomocą Equal Error Rate (EER). Jest to punkt, w którym system osiąga idealną równowagę między błędnym odrzuceniem autentycznego głosu a zaakceptowaniem fałszu. Im niższy EER, tym wyższe bezpieczeństwo i mniejsza liczba fałszywych alarmów, które blokują Twoich prawdziwych klientów.
W najnowszej wersji Stenograf ADD v1 odnotowaliśmy gigantyczny skok jakościowy w porównaniu do wersji v0:
Zbiór danych | Metryka | Wynik (v1) | Progres (v0 vs v1) |
FakeOrReal (Audiobooki i syntezatory) - dobra jakość, łatwiej o poprawność rozpoznania Voice deepfake | Accuracy | 97,39% | Skok z 85,16% |
EER | 2,61% | Spadek z 14,84% | |
Deepfake-Eval-2024 (Social Media) - słaba jakość, trudniej o poprawność rozpoznania voice deepfake | Accuracy | 89,00% | Skok z 75,00% |
EER | 12,52% | Spadek z 27,76% |
Dlaczego skuteczność 89% na Deepfake-Eval-2024 to realny poziom bezpieczeństwa?
Oszuści nie dzwonią ze studia nagraniowego!
Maskują ślady syntezy AI poprzez celowe obniżanie jakości nagrania. Stenograf został na to uodporniony:
Zaszumienie kodekami:
Skutecznie analizujemy dźwięk poddany silnej kompresji komunikatorów (WhatsApp, Telegram, Messenger) oraz połączeń komórkowych LTE, GSM.Ukrycie się w dużym szumie:
Wykrywamy anomalie AI nawet w trudnych warunkach (niskim Signal-to-Noise ratio) – przy zgiełku ulicznym, hałasie biurowym czy celowo dodanych zakłóceniach.Symulowanie urządzeniami:
Rozpoznajemy nagrania powstające podczas tzw. re-recordingu (odtwarzanie fake’a z głośnika i ponowne nagrywanie mikrofonem).
Testowany ,,in the wild” – od X do TikToka
Zbiór danych Deepfake-Eval-2024, opracowany przez organizację non-profit TrueMedia, to jeden z najbardziej wymagających benchmarków na świecie, gromadzący realne treści deepfake krążące w sieci. Osiągnięcie w nim 89% dokładności to sygnał, że Stenograf ADD jest gotowy na realne wyzwania, przed którymi stają firmy i instytucje publiczne.
Te liczby to nie teoria – to wynik starcia Stenograf ADD v1 z najbardziej wymagającym sędzią: benchmarkiem DeepFake-Eval-2024. To zbiór danych, który zawiera dane z najróżniejszych źródeł bezpośrednio z mediów społecznościowych. Najwięcej próbek pochodzi z serwisu X (32,1%), ale monitorujemy też TikTok (21,3%), YouTube (7,1%) oraz Facebook i Instagram.
Polski „szum” i agresywna augmentacja danych: Sekretny sos Stenografu
Choć walka z nowymi metodami syntezy mowy to proces ciągły, wersja Stenograf ADD v1 już stanowi potężną barierę ochronną, minimalizując ryzyko oszustw głosowych.
Stenograf ADD v1 był trenowany na tysiącach godzin nagrań z użyciem agresywnej augmentacji danych, w tym na wytworzonym przez nas zbiorze dodatkowym dla języka polskiego, to dlatego osiąga wysokie 89% na wymagającym benchmarku Deepfake-Eval-2024, a nie tylko na "czystych" nagraniach z audiobooków.
Chcesz sprawdzić, jak skąd konieczność zabezpieczenia Twojej organizacji w model ochronę Audio DeepFake Detection?
Skontaktuj się z nami, aby dowiedzieć się więcej o testach API lub wdrożeniu modelu On-Premise i zabezpieczyć swoją organizację przed nową falą oszustw Voice AI.
Paweł Cyrta — ekspert ds. detekcji audio deepfake oraz systemów biometrii głosowej. Jako Head of Voice AI w Stenograf odpowiada za rozwój silników Automatic Speech Recognition (ASR) oraz autorskiego modelu Audio Deepfake Detection (ADD), który osiąga 89% skuteczności w wykrywaniu klonowania głosu w warunkach rzeczywistych (benchmark Deepfake-Eval-2024). Specjalizuje się w technologiach voice anti-spoofing oraz projektowaniu systemów chroniących organizacje przed atakami typu CEO Fraud i Voice Phishing. Dzięki połączeniu kompetencji w obszarze Machine Learning (Deep Learning, Transformers) z inżynierią sygnału audio, tworzy narzędzia zdolne do wykrywania manipulacji akustycznych niesłyszalnych dla ludzkiego ucha.

