O tworzeniu napisów w Stenograf.io - rozmowa Pawła Potakowskiego z Migam S.A. z Tomem Horeckim

Paweł Potakowski: Szanowni państwo! Bardzo miło jest mi powitać wszystkich naszych widzów oraz mojego dzisiejszego gościa. Cześć Tom! Miło mi cię widzieć.

Tom Horecki: Witaj Paweł, bardzo mi miło! Dziękuję za zaproszenie.

Obejrzyj całą rozmowę Pawła Potakowskiego z Tomem Horeckim na YouTube.

Tom Horecki, firma WEimpact.Ai. Firma, którą możecie państwo kojarzyć z narzędziem do robienia napisów i transkrypcji Stenograf.io. Tomku, powiedz, dlaczego zdecydowałeś się robić napisy do filmów? Co sprawiło, że twoja firma już od 2019 roku, zajmuje się tym tematem?

Strona główna Stenograf.io na ekranie laptopa.webp
Historia jest dłuższa. Zaczęliśmy od współpracy z osobami, które regularnie angażują osoby z niepełnosprawnością do pracy — serdecznie pozdrawiam Krzysztofa Rumianowskiego i Joannę Olszewską z BPO Network.
⁠⁠Stworzyliśmy wspólnymi siłami markę DataLabeling.eu, która służyła do etykietowania danych i budowania sztucznej inteligencji. Zazwyczaj były to grafiki, żeby na przykład robot w magazynie mógł lepiej chwytać przedmioty, czy też za pomocą widoku map można było rozpoznać, czy będzie konflikt zbrojny w danej części świata.

Biorąc pod uwagę to, co dzieje się na Ukrainie, to pewnie przydałoby się mieć narzędzia, które w sposób automatyczny szybko zidentyfikowałyby rodzący się problem lub zaproponowały, jak go rozwiązać. Proszę państwa, ten webinar jest tłumaczony na polski i na ukraiński język migowy. ⁠⁠“Migam” od 1 marca 2022 roku rozwija zagadnienie ukraińskiego języka migowego w odpowiedzi na wybuch wojny i zbrodniczy atak Rosji na Ukrainę. Uruchomiliśmy usługę darmowego dostępu do tłumaczy ukraińskiego języka migowego, które “Migam” rozwija i finansuje dzięki wsparciu International Press Committee Rescue.org.

My również w odpowiedzi na tę agresję przetłumaczyliśmy aplikację i stronę aplikacji na język ukraiński. Jest to w Stenografie drugi język po polskim. Wspieramy w ten sposób dziennikarzy i inne osoby, które mogą przyczynić się do zażegnania zaistniałego konfliktu. Pomagamy szybko transkrybować treści mówione na tekst, tłumaczyć je oraz tworzyć napisy do wideo.

Świetnie! To jest kolejny dowód, że startupy są w stanie w takich trudnych sytuacjach reagować i działać najszybciej. Tomku, co oznacza nazwa WEimpact.Ai?

Nazwa wzięła się z tego, że my, ludzie — "WE", chcemy oddziaływać na sztuczną inteligencję. I to dwojako. Po pierwsze — budując ją w przejrzysty i dobry sposób, utrzymując człowieka w centrum, żeby sztuczna inteligencja mu służyła, a także, aby przy okazji budowania tych rozwiązań angażować ludzi. Stąd też nawiązała się wcześniej wspomniana współpraca z etykietowaniem danych.
⁠Jesteśmy organizacją stricte zdalną, to znaczy, że pracujemy wyłącznie z własnych domów, nie mamy biura, w którym się spotykamy. Wynika to też z tego, że blisko połowa zespołu to osoby z niepełnosprawnością — w większości ruchową. To także sprawiło, że mamy taką strukturę. To jest kręgosłup naszej organizacji i jest nam z tym dobrze.

Zaczęliście pracować zdalnie, nim stało się to modne z powodu pandemii. Jak liczny na ten moment jest wasz zespół?

Myślę, że w tej chwili w różnym stopniu angażujemy ponad 30 osób. Pełnoetatowo to jest między 15 a 23 osoby.

Jesteście całkiem sporym podmiotem, jeżeli zatrudniacie tyle osób. Wspaniale! Powiedz, dlaczego napisy są tak ważne, nie tylko z powodu użyteczności? Skąd wasze zaangażowanie w ten temat? Kto uświadomił wam, że jest potrzeba zapewnienia większej dostępności do treści?

Mamy na pokładzie osoby również z niepełnosprawnością słuchową — pozdrawiam Marka. Natomiast decyzja wynikła z zasobów i z pewnego rodzaju strategii. Etykietowanie danych w sferze graficznej zawsze wystawiało nas na potencjalną konkurencję i walkę z podmiotami azjatyckimi, zwłaszcza jeżeli chodzi o dane, które nie są wrażliwe.
⁠My się specjalizujemy w etykietowaniu danych, które nie mogą wyjść poza obszar Unii i zleceniodawcy zależy na tym, aby te osoby pochodziły z Unii. Natomiast rozpoznawanie mowy, które jest technologią stojącą za możliwością tworzenia opisów — firmę założyliśmy z Pawłem Cyrtą. Paweł jest moim wspólnikiem i wieloletnim specjalistą, jeżeli chodzi o badanie dźwięku oraz o sieci neuronowe, czyli sztuczną inteligencję.

W materiałach prasowych, które mi przesłałeś, Paweł Cyrta, szef technologii Stenografu, jest podpisany jako Voice Researcher, czyli badacz dźwięku, tak?

Tak. Paweł jest wizjonerem i szczegółowcem. Podziwiam go — jest jak chodząca encyklopedia. Ma ogromny ogląd i fascynuje go to, jak rzeczy mogą być zbudowane. Stanowimy dobre połączenie.
⁠Ja jestem integratorem, który stara się łapać to, co w tej chwili możemy dowieść i dać naszym partnerom biznesowym, co przyniesie dla nich wartość. Paweł rozwija naszą technologię i prowadzi zespół deweloperów.

Do kogo skierowane jest narzędzie Stenograf?

Obecnie przede wszystkim jest dla Agencji Badania Rynku, ponieważ ten segment potrzebuje ciągłych transkrypcji badań jakościowych. Wtedy, kiedy odbywają się konsultacje z rynkiem, z ludźmi odnośnie do produktu czy innego tematu, i te rozmowy trzeba przekuć w raport, tam potrzebna jest transkrypcja. To jest segment, do którego się kierujemy.
⁠Już 22 i 23 września pojawimy się na Festiwalu Innowacji i Insightów w warszawskim Koneserze. Serdecznie zapraszam. Będzie Paweł, będę ja i będą też krówki mordoklejki, i jabłka, po to, by rzucić wyzwanie naszemu narzędziu rozpoznawania mowy.
Voicie siedzi obok karmelowych krówek.webp

Jednocześnie jedząc?

Tak.

Ciekawe wyzwanie — żuć krówkę, która będzie mocno utrudniała zrozumienie tego, co mówimy. Jak bardzo narzędzie Stenograf jest w stanie w tej chwili realizować transkrypcję samodzielnie, a w jakim stopniu twój zespół faktycznie sprawdza wasze transkrypcje, zanim trafią do klienta?

Odpowiedź standardowa — to zależy. Język polski jest bardzo trudny. Dla języka polskiego nie ma tak dużej liczby danych, jak dla języka angielskiego czy chińskiego. Myślę, że zajmie dobrych parę lat, a nawet dekada, aż dojdziemy do tego Świętego Graala, kiedy będzie możliwe rozpoznawanie mowy na poziomie 97-98%. W tej chwili to oscyluje wokół poziomu 82-85%.

Mówisz o twoim narzędziu czy o standardzie, który jest w stanie wyciągnąć sztuczna inteligencja, analizując język polski?

I to, i to. To zależy właśnie od zbioru danych — czy na takim podobnym zbiorze była trenowana sztuczna inteligencja, czy to jest mowa zaszumiona, czy jest nakładanie się mówców. Te parametry bardzo przeszkadzają.
⁠Potrzebny jest element ludzki, o którym wspominałeś. W Stenografie oprócz tego, że jest narzędzie, gdzie można wgrać swoje materiały, nagrania i otrzyma się transkrypcję w postaci tekstu oraz napisy do tego nagrania ze znacznikami czasowymi, czyli każde słowo jest rozłożone na linii czasu nagrania.

Czyli mogę wyciągnąć plik z napisami, które mogę dodać do tego filmu? Czy to są tylko znaczniki, które później można przerzucić na jakieś narzędzie, żeby wgrać na YouTube czy coś takiego?

Takimi popularnymi formatami są SRT oraz VTT. Pobrany plik zawiera zarówno tekst, jak i przy każdej linijce sygnaturę czasową. SRT jest akceptowany przez Facebook, YouTube i wiele innych serwisów i narzędzi. Mimo podobieństw pliki VTT nie są obsługiwane przez Facebook, ale są używane przez narzędzia do obróbki i montażu wideo. Te i inne formaty plików można pobrać z naszego narzędzia.
Różne formaty eksportu treści napisów do wideo, transkrypcji i tłumaczeń.webp
Do tego jest do pobrania także transkrypcja nagrania, czyli tekst. To nas odróżnia od innych narzędzi, że u nas da się pracować w trybie zmiennym pomiędzy transkrypcją i napisami. Najpierw możesz skupić się na korekcie tekstu, patrząc na blok tekstu, odsłuchiwać i go poprawiać. W takim widoku bardzo wygodnie się pracuje.
Potem suwakiem zmienisz na tryb napisów, które są rozdzielone w liniach. Wtedy skoncentrujesz się na znacznikach czasowych, sprawdzisz, czy wszystko jest z automatu dobrze rozlokowane i ewentualnie suwaczkiem szybko, bez żadnego wpisywania nowych czasów, przesuwasz w odpowiednie miejsce.

Brzmi obiecująco. Czy doświadczacie zwiększonego zapotrzebowania na tworzenie napisów wśród podmiotów sektora publicznego? Rządowy program ”Dostępność +” i ustawa o zapewnieniu dostępności osobom ze szczególnymi potrzebami bardzo dużo zmieniły. Przede wszystkim zdecydowanie wzrosła świadomość, świadomość potrzeb w zakresie zapewnienia dostępności, w tym taka, że przede wszystkim dla osób, które nie słyszą, najlepszym rozwiązaniem i zawsze będziemy tutaj to podkreślali, jest zapewnienie tłumacza polskiego języka migowego, bo głusi kulturowo, osoby, które nie słyszą od bardzo wczesnego dzieciństwa lub od urodzenia, zawsze w pierwszej kolejności tego tłumacza będą potrzebowały, bo to jest kwestia ich języka naturalnego.

Na przykład dla osób słabo słyszących, takich, które dobrze znają też język polski, posiłkowanie się napisami lub właśnie korzystanie z napisów jest też bardzo atrakcyjnym udogodnieniem. Więc powiedz, czy dostrzegliście wzrost zainteresowania w związku z dostępnością i jaki profil jest tych podmiotów, które w pierwszej kolejności do was się zwracają?

Tak. Zauważyliśmy, a te podmioty, które się do nas zgłaszają, podzieliłbym na dwie grupy — samorządy i jednostki związane z kulturą. Można tu adresować potrzeby w różny sposób po to, aby beneficjent, osoba niesłysząca mogła skorzystać z informacji publicznej, która ma być dla niej dostępna. Po pierwsze, podłożyć napisy za pomocą narzędzia lub zlecić naszym korektorom wykonanie tych napisów od A do Z.
Druga rzecz — przy produkcji napisów od razu automatycznie tworzy się transkrypcja, więc dostępność takiej sesji rady gmin może być też za pomocą załączonej transkrypcji, dokumentu tekstowego, co też jest ważnym aspektem w kontekście powrotu do informacji. Łatwiej jest przeszukać po słowie kluczowym dokument tekstowy, niż na przykład w kursie, w którym jest 15 odcinków po godzinie, zastanawiać się, gdzie była interesująca nas informacja. Więc napisy i transkrypcja doskonale się uzupełniają.
Uważam, że im bardziej jest to zaopiekowane z każdej strony, tym lepiej. Warto też pamiętać, że potrzeby są zróżnicowane. Jeżeli chodzi o niepełnosprawność nabytą, to w zależności od momentu, kiedy się to wydarzyło, to osoba może sobie lepiej, gorzej lub w ogóle nie radzić z czytaniem. Dlatego dla części osób napisy nie wystarczą, dla części będą okej, ale też potrzebują, aby napisy nie znikały zbyt szybko z ekranu, bo nie zawsze płynnie czytają.
Zasadniczo ludziom łatwiej słuchać niż czytać. Prace trwają nad tym, aby napisy wydłużać, ale nie zawsze się da, jeśli mówca utrzymuje wysokie tempo mówienia. W przypadku dzieci i dostępności materiałów dla dzieci czas wyświetlania napisów powinien być jeszcze bardziej wydłużony.

Czyli dobrze przygotowana transkrypcja może służyć jako dokument i zwiększyć dostępność dla osób, które mają problemy ze wzrokiem. Uruchomienie dokumentu transkrypcji na czytniku lub innym narzędziu, które umożliwi zapoznanie się z treściami transkrypcji, a także wyszukiwanie konkretnych fraz. Czy instytucje kultury i twórcy treści, ze względu na wymogi dostępności,  chętniej korzystają z takich narzędzi jak Stenograf?

Tam są różne pobudki, które za tym stoją, jeżeli chodzi o twórców. Część jest taka, jak wspomniałem, zwłaszcza jeżeli są to instytucje publiczne i one tworzą swego rodzaju sztukę, to są zobligowane w ramach ustawy do tego, aby to było dostępne. Trwają prace, żeby jeszcze więcej treści audiowizualnych, publicznych było dostępnych dla osób z niepełnosprawnością słuchową. Natomiast jeżeli chodzi o treści wysoko zasięgowe, influencerów — osób, które komentują różne treści, różne sfery życia czy podcasty, blogi i wideoblogi, to tutaj te osoby bardziej się kierują w moim odczuciu zasięgiem. Dobrze jest wiedzieć, że zasięg wzrasta z kilku względów. Po pierwsze aż do 10% polskiego społeczeństwa ma swojego rodzaju problem ze słuchem i napisy tutaj pomagają. Po drugie algorytmy YouTube'a, Google’a i inne są w stanie odczytać, co jest w materiale i wtedy przez wyszukiwanie ten materiał się pokazuje. A jeżeli to jest tylko nagranie, to już nie bardzo.

Czyli wpływa to na pozycjonowanie. Ponownie pojawia się temat sztucznej inteligencji. Algorytmy analizujące treść, wpływają na to, co jest nam wyświetlane. Obserwuję, jaka jest różnica czasem pomiędzy wyświetleniem podobnych materiałów, które mają napisy, a które napisów nie posiadają. Z czasem spróbujemy zaimplementować rozwiązanie, aby napisy zaczęły pojawiać się i u nas. Zwiększajmy dostępność także na swoim przykładzie.

Oczywiście takie napisy zdążymy zrobić. Temat napisów na żywo jest mocno skomplikowany technologicznie właśnie przez poziom rozpoznawania, ale też, przez co pewnie wiecie najlepiej, konieczność zaangażowania na żywo osób, które uzupełniają sztuczną inteligencję i sprawdzą, szybko poprawiają napisy, aby nie pojawiły się jakieś kwiatki.

Czy posługując się skomplikowanymi nazwami albo mówiąc niewyraźnie możemy utrudnić rozpoznawanie mowy narzędziom takim jak wasze?

Tak, na przykład YouTube. Dla języka angielskiego, który ma bardzo dobre rozpoznawanie mowy, ale przez długie miesiące słowo "COVID” nie było rozpoznawane, bo nie było przetrenowane.

Było referencyjne...

Tak — nowa, popularna rzecz, która weszła. Wyświetlały się tam kwiatki nawet na takiej platformie jak YouTube. Człowiek jest bardzo ważny. Im bardziej twórca poważnie myśli o tym, co stoi za każdym słowem, które dobiera, tym bardziej chce, aby to było sprawdzone, a nie żeby tylko było.

Przy tłumaczeniu języka migowego, gdy mamy pracować przez pół godziny to jest pół godziny tłumaczenia. Przy dłuższym czasie tłumacze powinni mieć zmienników tłumaczeniowych z uwagi na komfort pracy oraz jakość, która z tym się wiąże. Jak opłacalna jest praca ze Stenografem pod względem zatrudnienia korektora, do robienia napisów? Jaka jest konkurencyjność cenowa takich rozwiązań jak wasze, automatycznych lub częściowo zautomatyzowanych?

Różnica jest diametralna, jeżeli chodzi o porównanie pracochłonności. Jeżeli nie wykorzystamy technologii, tylko na przykład będziemy taką sesję rady gmin odsłuchiwać, spisywać, a potem jeszcze w jakimś narzędziu manualnie każdą linijkę ustawiać w czasie, to jest o dziesięć razy dłużej, niż trwa nagranie. A tutaj, jeżeli jest narzędzie, to można zejść (jak jest dobre nagranie, jak się jest sprawnym) do 2-3 krotności trwania tego nagrania.

Czyli przygotowanie napisów do naszego półgodzinnego webinaru zajmie około godziny do półtorej z w wykorzystaniem Stenografu?

Tak. Zakładam, że dobrze się to wszystko nagrało i osoba, która będzie to korygować, jest sprawna i po prostu leci z tematem. Dlatego ja mam bardzo dużo szacunku dla samorządów, które nie zawsze wiedzą o takich nowych narzędziach, które się pojawiły, i panie w sekretariatach czy panowie dzielnie, manualnie przez wiele godzin dbają o to, aby ta dostępność była zapewniona. Także dziękuję jeszcze raz za zaproszenie. Być może to się zmieni.

Niebywałe. 8-10 krotność do dwukrotności czy trzykrotności. To jest ogromna różnica w czasie. Dlatego też my nie wysyłamy naszych tłumaczy, gdyż zazwyczaj czas dojazdu tłumacza jest totalnie nieadekwatny do planowanej długości tłumaczenia. W ciągu dnia w terenie tłumacz wykonałby może 5 tłumaczeń, a online nasi tłumacze potrafią przetłumaczyć 50 połączeń. Technologia może bardzo pomóc dostępności.

Oszczędzanie ze Stenografem.webp
Myślę, że jest kluczem do tego, bo jednak zobaczmy, ile tej treści jest tworzone w telewizjach, w teatrach, w samorządach. To jest masa. Nie byłoby  bezrobocia, gdybyśmy chcieli  tłumaczyć manualnie wszystkie publikowane materiały. Nie ma szans, żeby sprostać temu tradycyjnymi sposobami. Po prostu technologia pomaga. I te godziny, które mówiliśmy, te 8 zaoszczędzonych godzin, może być wniesione w kreatywne i satysfakcjonujące działania.

Wspaniale, że wasza firma jest pracodawcą zatrudniającym osoby z niepełnosprawnościami oraz wdraża rozwiązania, które przekładają się na realne zwiększanie dostępności. Jako startup, jako firma rozwijacie się biznesowo. Czy w waszą firmę będzie można zainwestować np. przez crowdfunding inwestycyjny, gdyż chętnie bym zainwestował?

Jak najbardziej rozważamy tego typu ścieżkę rozwoju, jak i związaną z pozyskaniem kolejnej rundy od funduszy wysokiego ryzyka na skalowanie naszego narzędzia w tych segmentach rynku, do których adresujemy.

Trzymam kciuki. Jak tylko będziecie mieli propozycje inwestycyjne, odezwijcie się też do mnie. Zachęcam naszych widzów do podzielenia się wrażeniami. Piszecie państwo na Facebooku, YouTubie czy LinkedIn, to oczywiście odpowiemy. Jeśli będą skierowane do Toma Horeckiego ze Stenograf.io to wywołam Tomka, który chętnie podzieli się swoją wiedzą.

Bardzo chętnie służę pomocą i postaram się pomóc. Zapraszam do kontaktu na wymienionych platformach, a także na YouTube.

Bardzo serdecznie dziękuję. Dziękuję naszym tłumaczkom — Olenie, która tłumaczyła na ukraiński język migowy i Dianie, która tłumaczyła na polski język migowy. Tomku, dziękuję ci za bardzo fajną rozmowę.

Dziękuję serdecznie.

Do zobaczenia!

Paweł Potakowski
Paweł PotakowskiMarketing director @ Migam S.A.

Prawnik i marketingowiec. Z zamiłowaniem organizuje wydarzenia i pomaga w nawiązywaniu kontaktów. Koordynator 16 konferencji naukowych w latach 2006-2016 oraz ponad 30 wydarzeń kulturalnych i artystycznych w latach 2005-2016, których przeważnie tematyką było fantasy i science fiction. Organizator wielu ogólnopolskich konwentów, konferencji i festiwali. W 2007 roku uhonorowany "ŚLĄKFĄ" w kategorii Fan Roku za organizację w 2007 roku Polconu w Warszawie, który zgromadził ponad 2400 uczestników. Chciałby skutecznie łączyć naukę z biznesem oraz przyczynić się do rozwoju innowacyjnych technologii. W swoich doktoranckich badaniach skupia się na prawnych aspektach digitalizacji zasobów wiedzy i kultury.

Tom Horecki
Tom HoreckiProduct owner @ Stenograf

Tom Horecki — absolwent Founders Academy of Google for Startups. Właściciel marki Stenograf. Propagator zrównoważonego rozwoju, entuzjasta bycia źródłem dobrej energii oraz pozytywnego wpływu na świat. Zwolennik dostępności technologii dla osób z niepełnosprawnościami. Fascynat bezpiecznej sztucznej inteligencji i cyfrowej transformacji korzystnie wpływającej na rozwój ludzkości. Według testu strengthsfinder jego 5 mocnych stron to: Believer🙏 (wierzący), Brainstormer🧠 (burza mózgów), Time Keeper⏳ (strażnik czasu), Coach🧘‍♂️ (trener), Thinker🤔 (myśliciel). Według testu 16 osobowości (~MBTI) jest: Protagonistą (Ekstrawertykiem, Intuicyjnym, Czującym, Oceniającym).

Chcesz rozpocząć?Twórz napisyszybko i przyjemnie!

Zyskaj czas i pieniądze

Zobacz również