Blog - Słownik pojęć

ADD (Audio Deepfake Detection)

Systemy służące do automatycznego rozpoznawania, czy nagranie głosowe jest autentyczne, czy zostało wygenerowane lub zmodyfikowane przez sztuczną inteligencję.

W prostych słowach: To „cyfrowy detektor kłamstw” dla dźwięku. Pozwala odróżnić głos prawdziwego człowieka (bona fide) od nagrania sfałszowanego (spoofed).

Application Programming Interface (API)

Interfejs Programowania Aplikacji to zbiór reguł, protokołów i narzędzi, które umożliwiają aplikacjom komunikację ze sobą. API definiuje sposób, w jaki komponenty oprogramowania mogą się integrować, wymieniać dane i współpracować. W praktyce API działa jako pośrednik między różnymi systemami, umożliwiając programistom korzystanie z funkcjonalności jednej aplikacji w ramach innej, bez potrzeby ujawniania wewnętrznej logiki działania pierwszej. API jest niezwykle popularnym i istotnym elementem nowoczesnego oprogramowania, umożliwiając integrację i współpracę systemów w erze cyfrowej. Więcej w tekście.

Audio Liveness Detection (Detekcja Żywotności)

Technologia weryfikująca, czy dźwięk docierający do systemu pochodzi od żywej osoby obecnej „tu i teraz”, czy jest odtworzonym nagraniem lub syntetycznym klonem.

Dlaczego to ważne? Zapobiega atakom, w których oszust puszcza nagranie z telefonu do mikrofonu (tzw. replay attack). To kluczowy element bezpiecznej biometrii głosowej.

Audiodeskrypcja

Proces tworzenia werbalnych opisów treści wizualnych, takich jak filmy, spektakle teatralne czy dzieła sztuki, aby umożliwić osobom niewidomym i słabowidzącym pełniejsze zrozumienie i cieszenie się tymi treściami. Audiodeskrypcja obejmuje opisywanie scen, gestów, wyrazu twarzy, ubioru i innych elementów, które są kluczowe dla pełnego odbioru dzieła. Więcej w tekście.

Automatyczne Rozpoznawanie Mowy (ARM)

Analogicznie do ASR — jest to technologia rozpoznawania mowy i konwersji na tekst za pomocą zaawansowanych algorytmów i modeli uczenia maszynowego (ML). W Polsce od wielu lat prowadzone są liczne badania i projekty rozwijające ARM na potrzeby bezpieczeństwa, służb mundurowych, zastosowań akademickich czy komercyjnych. ARM jest technologią, która dynamicznie rozwija się wraz z postępem w dziedzinie sztucznej inteligencji i uczenia maszynowego, znajdując zastosowanie w szerokiej gamie branż i aplikacji codziennego użytku.

Automatic Speech Recognition (ASR)

Technologia automatycznego rozpoznawania mowy, która analizuje dźwięk mowy i przekształca go na tekst za pomocą zaawansowanych algorytmów i modeli uczenia maszynowego (ML). Dzięki ASR możliwe jest szybkie i precyzyjne przekształcanie mowy na tekst. ASR jest stosowane w wielu nowoczesnych urządzeniach, takich jak asystenci głosowi, systemy nawigacji samochodowej czy narzędzia do transkrypcji.

Diaryzacja

Diaryzacja jest procesem rozpoznawania i oznaczania mówców w nagraniu. Wykorzystanie diaryzacji może w znaczącym stopniu ułatwić czytelność transkrypcji mowy na tekst, redagowanie dialogów i innych czynności opartych na podziale na mówców. Diaryzacja często wykorzystywana jest w zestawieniu z STT. Więcej w tekście.

EER (Equal Error Rate) – Wskaźnik Równowagi Błędów

Podstawowa metryka określająca dokładność systemów bezpieczeństwa (np. detekcji deepfake).

W prostych słowach: Każdy system może się pomylić na dwa sposoby: albo przepuści oszusta, albo zablokuje uczciwego użytkownika. EER to punkt, w którym oba te błędy są zminimalizowane i równe sobie.
Zasada: Im niższy wskaźnik EER, tym system jest bardziej precyzyjny i godny zaufania.

Format SRT

Format zapisu wprowadzony z końcem XX w. Plik z rozszerzeniem .srt zawiera napisy do materiałów wideo w postaci pliku tekstowego wraz z danymi w postaci kodu czasu HH: MM: SS, MIL, zawartością treści oraz informacją o położeniu wyświetlanych napisów. Plik w formacie SRT najlepiej zapisać stosując format: nazwapliku.[kod języka]_[kod kraju].srt, np. nazwapliku.pl_PL.srt. Taki format zapisu pliku napisów pozwala na bezproblemowe dodanie ich na serwisy, takie jak: Facebook, YouTube, LinkedIn i inne.

Format VTT

Rozszerzenie zapisu pliku tekstowego w formacie WebVTT (Web Video Text Tracks Format). Plik w formacie VTT przechowuje informacje o podpisach, napisach, rozdziałach i innych metadanych dla treści audio lub wideo. Obecnie jest jednym z najpopularniejszych formatów zapisu napisów do filmów.

LLM (Large Language Model) – Wielki Model Językowy

Zaawansowany algorytm sztucznej inteligencji wyszkolony na ogromnych ilościach danych tekstowych, który potrafi rozumieć, generować i tłumaczyć ludzką mowę.

W kontekście bezpieczeństwa: LLM-y (jak np. ChatGPT) stanowią „mózg” nowoczesnych operacji vishingowych, pozwalając na generowanie przekonujących i spersonalizowanych scenariuszy rozmów w czasie rzeczywistym.

Napisy dla niesłyszących

W odróżnieniu od napisów dialogowych, napisy wyświetlane na ekranie, które zawierają dialogi oraz opisują inne dźwięki, takie jak muzyka, efekty dźwiękowe czy dźwięki tła, istotne dla pełnego zrozumienia treści filmu czy programu. Napisy te są szczególnie przydatne dla osób niesłyszących lub słabosłyszących, pozwalając im na pełniejsze uczestniczenie w odbiorze audiowizualnym. Więcej w tekście.

Napisy otwarte (OC - open caption)

Napisy na stałe wmontowane do wideo (stanowią część obrazu, tzw. hardsuby) - nie można ich usunąć, włączyć, wyłączyć ani edytować. Zaletą tych napisów jest to, iż wyświetlą się zawsze po uruchomieniu filmu. Więcej w tekście.

Napisy zamknięte (CC - closed caption)

Są to napisy zsynchronizowane ze strumieniem nagranego filmu. Występują bardzo często jako plik tekstowy z napisami ze znacznikami czasowymi (np. pliki SRT), które określają czas wyświetlania się danych kwestii. Stosowane do uzupełniania filmów i różnego rodzaju nagrań filmowych w celu dostarczenia dodatkowych wrażeń i dokładniejszego przekazania informacji. Ich zaletą jest dowolność włączania, wyłączania i edytowania. Więcej w tekście.

Polski Język Migowy (PJM)

Wizualno-przestrzenny język migowy używany przez społeczność Głuchych w Polsce. PJM posiada swoje własne zasady gramatyczne i składniowe, które różnią się od języka polskiego. Składa się z unikalnych gestów, znaków i mimiki, które umożliwiają osobom głuchym i niedosłyszącym komunikację i wyrażanie myśli w sposób wizualny.

Respeaking

Technika polegająca na tworzeniu napisów na żywo z wykorzystaniem dedykowanego oprogramowania do rozpoznawania mowy (STT). Polega na powtarzaniu lub parafrazowaniu przez respeakera na głos wszystkiego, co słyszy w oryginalnej wypowiedzi na żywo, uzupełnienie ich o znaki interpunkcyjne oraz niezbędne elementy na potrzeby osób niesłyszących i niedosłyszących (kolory tekstu, etykiety mówców) i niezbędne zmiany edycyjne. Treści sformułowane przez respeakera przetwarzane są przez system rozpoznawania mowy, który przygotowuje napisy, które po moderacji przez respeakera lub moderatora niemal natychmiast wyświetlane są na ekranie z możliwie minimalnymi opóźnieniami. Metoda ta jest często używana podczas transmisji na żywo, konferencji czy spotkań.

Speech-to-Text (STT)

Zaawansowana technologia, która rozpoznaje mowę i przekształca ją na tekst. STT wykorzystuje algorytmy sztucznej inteligencji (AI), w tym uczenie maszynowe (ML) i głębokie uczenie (DL), które analizują dźwięki mowy, rozpoznają słowa i odwzorowują je w formie tekstowej. Technologia STT jest jednym z kluczowych elementów współczesnej rewolucji cyfrowej, znajdując zastosowanie w niemal każdej dziedzinie życia. Rozwój technologii otwiera nowe możliwości w zakresie komunikacji i automatyzacji procesów.

Speech-to-Text API (STT API)

Interfejs programowania aplikacji umożliwiający programistom dostęp do funkcjonalności technologii Speech-to-Text (konwersji mowy na tekst) poprzez zapytania do zewnętrznych usług lub bibliotek. STT API działa jako pośrednik, pozwalając aplikacjom korzystać z zaawansowanych algorytmów rozpoznawania mowy bez konieczności tworzenia własnych modeli uczenia maszynowego. STT API jest istotnym narzędziem w budowie nowoczesnych aplikacji opartych na technologii rozpoznawania mowy, umożliwiając szeroką gamę zastosowań w różnych branżach.

Stenograf

Osoba spisująca teksty mówione; wśród stenografów za najlepszych uznawani są ci, którzy zapisują najwięcej sylab na minutę.

Stenogram

Efekt pracy stenografa (zapis przemówienia, wykładu, zeznań).

Stenogram sądowy

Wierny zapis stenograficzny tekstu mówionego sporządzany za pomocą określonego systemu stenograficznego, zarówno klasycznego, jak i elektronicznego. Obejmuje dokładne odwzorowanie wypowiedzi uczestników postępowania, w tym świadków, oskarżonych i stron, a także istotnych zdarzeń czy dźwięków rejestrowanych w trakcie rozprawy. Sporządzanie stenogramów regulują przepisy Kodeksu postępowania cywilnego (KPC), Kodeksu postępowania karnego (KPK) oraz innych aktów prawnych, np. ustawy o dostępie do informacji publicznej. Dla zachowania integralności stenogram musi być chroniony przed nieuprawnionymi zmianami, m.in. za pomocą podpisu cyfrowego lub innych zabezpieczeń technicznych. Więcej w tekście.

Transkrybent (transkryptor)

Osoba wykonująca transkrypcje.

Transkrypcja

Zapis mowy danego języka przy pomocy symboli graficznych, czyli przekształcenie nagrania audio na tekst. Więcej w tekście.

Transkrypcja edytowana

Jest to transkrypcja, w której pomija się zbędne powtórzenia wyrazów, jąkania się i typowe dla mowy potocznej zwroty jak: no, aha, no wiesz. Nie uwzględnia się wtrąceń, np. podczas przerwy w nagraniu czy przejawów emocji jak wulgaryzmy.

Transkrypcja pełna

Bardzo szczegółowa transkrypcja nagrania zawierająca zapis wszystkiego, co słyszymy, łącznie z odgłosami, tj. kaszel, śmiech, jąkanie się, szum, westchnienia. Jest to transkrypcja słowo w słowo. Zapisujemy wtrącenia, np. kelnerki podającej kawę. Zaznaczamy występującą w nagraniu ciszę, muzykę lub wszelkie odgłosy w tle. Najistotniejsza jest treść przekazu, a nie forma.

Transkrypcja standardowa (z redakcją)

Transkrypcja standardowa (z redakcją) zawiera wszystkie własności transkrypcji edytowanej oraz dodatkowo podejmuje się działania, aby zapis tekstowy był jak najbardziej zrozumiały i przejrzysty dla odbiorcy. Obejmuje swoim zakresem korektę stylistyczną, podział tekstu na akapity, boldowanie czcionki, linkowania, pomijanie niedokończonych zdań i myśli.

TTS (Text-to-Speech) – Synteza Mowy

Technologia przekształcająca tekst pisany na naturalnie brzmiącą mowę ludzką.

Współczesne wyzwanie: Nowoczesne systemy TTS potrafią „sklonować” barwę i intonację dowolnej osoby na podstawie zaledwie kilkusekundowej próbki nagrania. Wykrywanie śladów cyfrowych pozostawionych przez silniki TTS jest głównym zadaniem systemów ADD.

Vishing (Voice Phishing)

Metoda oszustwa, w której przestępca wykorzystuje telefon i techniki manipulacji (socjotechnikę), aby wyłudzić od ofiary poufne dane lub pieniądze.

Nowa era (Vishing 2.0): Dzięki AI oszuści nie muszą już sami rozmawiać – wykorzystują boty i klonowanie głosu (Deepfake Audio), aby podszyć się pod bliskich, pracowników banków lub przełożonych (tzw. CEO Fraud).

Voice Anti-spoofing

Zbiór technik i mechanizmów obronnych, których zadaniem jest powstrzymanie prób podszywania się pod inną osobę w systemach autoryzacji głosowej.

Zastosowanie: Jest to niezbędny standard zgodności z przepisami (compliance) dla instytucji finansowych i medycznych, które wykorzystują biometrię do weryfikacji tożsamości klientów.

Voicebot (Głosowy Asystent AI)

Program komputerowy prowadzący interakcję z użytkownikiem za pomocą głosu. Wykorzystuje rozpoznawanie mowy (ASR/STT) oraz syntezę (TTS).

Bezpieczeństwo: W dobie AI kluczowe staje się zabezpieczenie voicebotów przed atakami typu „injection”, czyli próbami wprowadzenia do systemu fałszywych komend głosowych generowanych przez inne algorytmy.

Znaczniki czasowe (timestamps)

Znaczniki czasowe są tagami w transkrypcji nagrania, które identyfikują dokładny punkt na ścieżce audio lub wideo, pozwalając synchronizować wypowiadaną kwestię z odpowiadającą jej treścią tekstową. Znaczniki czasowe są niezbędne w tworzeniu napisów do wideo, jak również w transkrypcjach dla montażystów, ustalaniu rozdziałów nagrania i wielu innych zastosowaniach. Więcej w tekście.

Tom HoreckiProduct owner @ Stenograf

Tom Horecki — absolwent Founders Academy of Google for Startups. Strateg odpowiedzialny za rozwój technologii, które transformują dane głosowe w wymierną wartość biznesową i społeczną. Jako lider produktu koncentruje się na budowaniu cyfrowego zaufania (Digital Trust) poprzez wdrażanie bezpiecznych rozwiązań AI w modelu on-premise, zapewniając organizacjom pełną suwerenność danych i zgodność z regulacjami EU AI Act oraz DORA. Specjalizuje się w łączeniu zaawansowanych modeli Speech-to-Text (STT), zoptymalizowanych pod kątem specyfiki języka polskiego, z technologią LLM oraz autorskim silnikiem Audio Deepfake Detection (ADD). Dzięki wybitnej dokładności i szybkości działania modeli Stenograf, przekształca nagrania z call center, wywiadów badawczych oraz materiałów medialnych w natychmiastowe insighty i automatyczne szkice raportów. Fascynat bezpiecznej sztucznej inteligencji, który w procesie cyfrowej transformacji stawia na najwyższe standardy cyberbezpieczeństwa. Jego misją jest dostarczanie narzędzi, które nie tylko automatyzują pracę z dźwiękiem, ale przede wszystkim chronią integralność komunikacji w dobie powszechnego klonowania głosu.

Słownik pojęć