Słownik pojęć
Application Programming Interface (API)
Interfejs Programowania Aplikacji to zbiór reguł, protokołów i narzędzi, które umożliwiają aplikacjom komunikację ze sobą. API definiuje sposób, w jaki komponenty oprogramowania mogą się integrować, wymieniać dane i współpracować. W praktyce API działa jako pośrednik między różnymi systemami, umożliwiając programistom korzystanie z funkcjonalności jednej aplikacji w ramach innej, bez potrzeby ujawniania wewnętrznej logiki działania pierwszej. API jest niezwykle popularnym i istotnym elementem nowoczesnego oprogramowania, umożliwiając integrację i współpracę systemów w erze cyfrowej. Więcej w tekście.
Audiodeskrypcja
Proces tworzenia werbalnych opisów treści wizualnych, takich jak filmy, spektakle teatralne czy dzieła sztuki, aby umożliwić osobom niewidomym i słabowidzącym pełniejsze zrozumienie i cieszenie się tymi treściami. Audiodeskrypcja obejmuje opisywanie scen, gestów, wyrazu twarzy, ubioru i innych elementów, które są kluczowe dla pełnego odbioru dzieła. Więcej w tekście.
Automatyczne Rozpoznawanie Mowy (ARM)
Analogicznie do ASR — jest to technologia rozpoznawania mowy i konwersji na tekst za pomocą zaawansowanych algorytmów i modeli uczenia maszynowego (ML). W Polsce od wielu lat prowadzone są liczne badania i projekty rozwijające ARM na potrzeby bezpieczeństwa, służb mundurowych, zastosowań akademickich czy komercyjnych. ARM jest technologią, która dynamicznie rozwija się wraz z postępem w dziedzinie sztucznej inteligencji i uczenia maszynowego, znajdując zastosowanie w szerokiej gamie branż i aplikacji codziennego użytku.
Automatic Speech Recognition (ASR)
Technologia automatycznego rozpoznawania mowy, która analizuje dźwięk mowy i przekształca go na tekst za pomocą zaawansowanych algorytmów i modeli uczenia maszynowego (ML). Dzięki ASR możliwe jest szybkie i precyzyjne przekształcanie mowy na tekst. ASR jest stosowane w wielu nowoczesnych urządzeniach, takich jak asystenci głosowi, systemy nawigacji samochodowej czy narzędzia do transkrypcji.
Format SRT
Format zapisu wprowadzony z końcem XX w. Plik z rozszerzeniem .srt zawiera napisy do materiałów wideo w postaci pliku tekstowego wraz z danymi w postaci kodu czasu HH: MM: SS, MIL, zawartością treści oraz informacją o położeniu wyświetlanych napisów. Plik w formacie SRT najlepiej zapisać stosując format: nazwapliku.[kod języka]_[kod kraju].srt, np. nazwapliku.pl_PL.srt. Taki format zapisu pliku napisów pozwala na bezproblemowe dodanie ich na serwisy, takie jak: Facebook, YouTube, LinkedIn i inne.
Format VTT
Rozszerzenie zapisu pliku tekstowego w formacie WebVTT (Web Video Text Tracks Format). Plik w formacie VTT przechowuje informacje o podpisach, napisach, rozdziałach i innych metadanych dla treści audio lub wideo. Obecnie jest jednym z najpopularniejszych formatów zapisu napisów do filmów.
Napisy dla niesłyszących
W odróżnieniu od napisów dialogowych, napisy wyświetlane na ekranie, które zawierają dialogi oraz opisują inne dźwięki, takie jak muzyka, efekty dźwiękowe czy dźwięki tła, istotne dla pełnego zrozumienia treści filmu czy programu. Napisy te są szczególnie przydatne dla osób niesłyszących lub słabosłyszących, pozwalając im na pełniejsze uczestniczenie w odbiorze audiowizualnym. Więcej w tekście.
Napisy otwarte (OC - open caption)
Napisy na stałe wmontowane do wideo (stanowią część obrazu, tzw. hardsuby) - nie można ich usunąć, włączyć, wyłączyć ani edytować. Zaletą tych napisów jest to, iż wyświetlą się zawsze po uruchomieniu filmu. Więcej w tekście.
Napisy zamknięte (CC - closed caption)
Są to napisy zsynchronizowane ze strumieniem nagranego filmu. Występują bardzo często jako plik tekstowy z napisami ze znacznikami czasowymi (np. pliki SRT), które określają czas wyświetlania się danych kwestii. Stosowane do uzupełniania filmów i różnego rodzaju nagrań filmowych w celu dostarczenia dodatkowych wrażeń i dokładniejszego przekazania informacji. Ich zaletą jest dowolność włączania, wyłączania i edytowania. Więcej w tekście.
Polski Język Migowy (PJM)
Wizualno-przestrzenny język migowy używany przez społeczność Głuchych w Polsce. PJM posiada swoje własne zasady gramatyczne i składniowe, które różnią się od języka polskiego. Składa się z unikalnych gestów, znaków i mimiki, które umożliwiają osobom głuchym i niedosłyszącym komunikację i wyrażanie myśli w sposób wizualny.
Respeaking
Technika polegająca na tworzeniu napisów na żywo z wykorzystaniem dedykowanego oprogramowania do rozpoznawania mowy (STT). Polega na powtarzaniu lub parafrazowaniu przez respeakera na głos wszystkiego, co słyszy w oryginalnej wypowiedzi na żywo, uzupełnienie ich o znaki interpunkcyjne oraz niezbędne elementy na potrzeby osób niesłyszących i niedosłyszących (kolory tekstu, etykiety mówców) i niezbędne zmiany edycyjne. Treści sformułowane przez respeakera przetwarzane są przez system rozpoznawania mowy, który przygotowuje napisy, które po moderacji przez respeakera lub moderatora niemal natychmiast wyświetlane są na ekranie z możliwie minimalnymi opóźnieniami. Metoda ta jest często używana podczas transmisji na żywo, konferencji czy spotkań.
Speech-to-Text (STT)
Zaawansowana technologia, która rozpoznaje mowę i przekształca ją na tekst. STT wykorzystuje algorytmy sztucznej inteligencji (AI), w tym uczenie maszynowe (ML) i głębokie uczenie (DL), które analizują dźwięki mowy, rozpoznają słowa i odwzorowują je w formie tekstowej. Technologia STT jest jednym z kluczowych elementów współczesnej rewolucji cyfrowej, znajdując zastosowanie w niemal każdej dziedzinie życia. Rozwój technologii otwiera nowe możliwości w zakresie komunikacji i automatyzacji procesów.
Speech-to-Text API (STT API)
Interfejs programowania aplikacji umożliwiający programistom dostęp do funkcjonalności technologii Speech-to-Text (konwersji mowy na tekst) poprzez zapytania do zewnętrznych usług lub bibliotek. STT API działa jako pośrednik, pozwalając aplikacjom korzystać z zaawansowanych algorytmów rozpoznawania mowy bez konieczności tworzenia własnych modeli uczenia maszynowego. STT API jest istotnym narzędziem w budowie nowoczesnych aplikacji opartych na technologii rozpoznawania mowy, umożliwiając szeroką gamę zastosowań w różnych branżach.
Stenograf
Osoba spisująca teksty mówione; wśród stenografów za najlepszych uznawani są ci, którzy zapisują najwięcej sylab na minutę.
Stenogram
Efekt pracy stenografa (zapis przemówienia, wykładu, zeznań).
Stenogram sądowy
Wierny zapis stenograficzny tekstu mówionego sporządzany za pomocą określonego systemu stenograficznego, zarówno klasycznego, jak i elektronicznego. Obejmuje dokładne odwzorowanie wypowiedzi uczestników postępowania, w tym świadków, oskarżonych i stron, a także istotnych zdarzeń czy dźwięków rejestrowanych w trakcie rozprawy. Sporządzanie stenogramów regulują przepisy Kodeksu postępowania cywilnego (KPC), Kodeksu postępowania karnego (KPK) oraz innych aktów prawnych, np. ustawy o dostępie do informacji publicznej. Dla zachowania integralności stenogram musi być chroniony przed nieuprawnionymi zmianami, m.in. za pomocą podpisu cyfrowego lub innych zabezpieczeń technicznych. Więcej w tekście.
Transkrybent (transkryptor)
Osoba wykonująca transkrypcje.
Transkrypcja
Zapis mowy danego języka przy pomocy symboli graficznych, czyli przekształcenie nagrania audio na tekst. Więcej w tekście.
Transkrypcja edytowana
Jest to transkrypcja, w której pomija się zbędne powtórzenia wyrazów, jąkania się i typowe dla mowy potocznej zwroty jak: no, aha, no wiesz. Nie uwzględnia się wtrąceń, np. podczas przerwy w nagraniu czy przejawów emocji jak wulgaryzmy.
Transkrypcja pełna
Bardzo szczegółowa transkrypcja nagrania zawierająca zapis wszystkiego, co słyszymy, łącznie z odgłosami, tj. kaszel, śmiech, jąkanie się, szum, westchnienia. Jest to transkrypcja słowo w słowo. Zapisujemy wtrącenia, np. kelnerki podającej kawę. Zaznaczamy występującą w nagraniu ciszę, muzykę lub wszelkie odgłosy w tle. Najistotniejsza jest treść przekazu, a nie forma.
Transkrypcja standardowa (z redakcją)
Transkrypcja standardowa (z redakcją) zawiera wszystkie własności transkrypcji edytowanej oraz dodatkowo podejmuje się działania, aby zapis tekstowy był jak najbardziej zrozumiały i przejrzysty dla odbiorcy. Obejmuje swoim zakresem korektę stylistyczną, podział tekstu na akapity, boldowanie czcionki, linkowania, pomijanie niedokończonych zdań i myśli.
Znaczniki czasowe (timestamps)
Znaczniki czasowe są tagami w transkrypcji nagrania, które identyfikują dokładny punkt na ścieżce audio lub wideo, pozwalając synchronizować wypowiadaną kwestię z odpowiadającą jej treścią tekstową. Znaczniki czasowe są niezbędne w tworzeniu napisów do wideo, jak również w transkrypcjach dla montażystów, ustalaniu rozdziałów nagrania i wielu innych zastosowaniach. Więcej w tekście.
Tom Horecki — absolwent Founders Academy of Google for Startups. Właściciel marki Stenograf. Propagator zrównoważonego rozwoju, entuzjasta bycia źródłem dobrej energii oraz pozytywnego wpływu na świat. Zwolennik dostępności technologii dla osób z niepełnosprawnościami. Fascynat bezpiecznej sztucznej inteligencji i cyfrowej transformacji korzystnie wpływającej na rozwój ludzkości. Według testu strengthsfinder jego 5 mocnych stron to: Believer🙏 (wierzący), Brainstormer🧠 (burza mózgów), Time Keeper⏳ (strażnik czasu), Coach🧘♂️ (trener), Thinker🤔 (myśliciel). Według testu 16 osobowości (~MBTI) jest: Protagonistą (Ekstrawertykiem, Intuicyjnym, Czującym, Oceniającym).