Przejdź do głównej zawartości


Z życia Fundacji:

Karta GPU GTX 1080 Ti montowana w serwerze.

Przygotowania do generowania napisów i transkrypcji z audio w języku polskim za pomocą LLM whisper.cpp w projekcie #NapiGen (wcześniej NapGenPL).

Czyli napisy do #PeerTube i YouTube oraz transkrypcje do podkastów !

Oprogramowanie z naszymi "kustomizacjami" sprawdzone jest już na laptopach i na wynajętych serwerach z GPU (na godziny), niebawem będziemy mieli własny.

Serwer trzeba jeszcze doposażyć, m. in. w dodatkowy RAM, ale o tym później 😉

#FTdLKurier #FTdL #WspieramFtdl
Wnętrze serwera Dell z zamontowaną kartą GPU
Właśnie miałem pytać, czy serwer dotarł, bo pamiętam, że go zamawialiście, ale jakoś umknęło mi ogłoszenie, że się pojawił :)
@SceNtriC

Jest, jeszcze go doposażamy, ram-u mało ;)

#FTdLHardware

@ftdl
Screenshot z programu top, 56 wątków procesora cpu

2 użytkowników udostępniło to dalej

ostatnio taki Rule-of-thumb sobie wygenerowałem, 1core to min 2gb ramu w moim przypadku użycia, jak mam maszynę 32rdzenie, to 32gb ramu powoduje, że kernel co jakiś czas mi coś ubija, jak mam 64gb to pracuje się spoko, dobiją do 55gb użycia.
Ten wpis został zedytowany (1 rok temu)
@SceNtriC Spóźnił się o kilka dni w porównaniu z zapewnieniami na aukcji, ale dotarł. Dzięki 👍
@SceNtriC dotarł dotarł ;) tylko ostatnio do pol.social musialem siąść... do tego tez jeszcze czekałem na kabel zasilania do GPU (mialy byc, ale nie wyslali). @ftdl
To fizyczny pol.social? Proszę pogłaskać ode mnie 😁
@tomgwynplaine to jest dokładnie fizyczny pol.social

Pogłaskany ;)
Ręka położona na serwerze u samej góry szafy z serwerami.

4 użytkowników udostępniło to dalej

@piotrsikora @tomgwynplaine Mam tylko nadzieję, że nie pokropiony wodą święconą.
@kukrak @piotrsikora @tomgwynplaine Ale to nie Athena i Jędraszewski w 2022. Nadal szukam źródła.
@szescstopni @kukrak @piotrsikora To Dziwisz 😁
https://www.infokrakow24.pl/38664/superkomputer-zeus-dla-polskich-naukowcow-zdjecia/
@kukrak Źródło podał własnie @tomgwynplaine – Dziwisz święci Zeusa. A parę lat później Jędraszewski święcił Atenę. Powinienem nazwać któryś ze swoich komputerów Dionizos i zaprosić proboszcza. @piotrsikora @tomgwynplaine @ftdl
@kukrak @szescstopni @tomgwynplaine tu jest info że święcenia superkomputera przez Jedraszewskiego: https://lifeinkrakow.pl/w-miescie/5388,abp-jedraszewski-poswiecil-superkomputer-agh-najszybszy-w-polsce

Ten dziś jest na 155 miejscu na świecie.

Żadnej uczelni na liście 500 najsłodszych na świecie nie mamy, ale superkomputery AGH ma chyba nieprzerwanie od lat 90.
jak z weryfikacją tego co wypluje Whisper? Na potrzeby @icd probowaliśmy, ale nawet przy największych modelach wciąż wymaga dość dużego wysiłku manualnego
Ten wpis został zedytowany (1 rok temu)
@arek

Rezultaty są bardzo dobre. Mamy kilka przykładów, gdzie nie trzeba było wiele lub prawie nic poprawiać. Dodatkowo, w json raportuje nam, gdzie ma wątpliwości, i to będzie wykorzystane w edytorze do szybkiego podświetlenia miejsc wątpliwych i korekty.

Korekta zawsze jest niezbędnym etapem, bo nie powinno się "ufać" LLM, zwłaszcza przy nazwiskach, nazwach własnych i innych nietypowych, rzadszych sformułowaniach.

Ale wygląda to bardzo obiecująco.

Przykład:
https://tube.pol.social/w/1XRcn7jsZi2SphbRc58nme

Znajdziesz też napisy wygenerowane przez nas na YT na kanałach Piotra Czabana i GilotynaTV.

Są zadowoleni :)

@icd
@arek

A może daj nam link do jakiegoś Twojego materiału, zrobimy test na nim w wolnej chwili i podeślemy wyniki raw, bez korekty?

@icd
@arek @icd

Cześć

Tutaj przetworzone pliki:
https://nch.pl/s/nLy2k89G4gEpDPY

I screenshot z output, raczej było "zielono". Pliki raw, niepoprawiane.
Jeśli ten materiał się przyda do napisów (srt są gotowe do wrzucenia jako format, do korekty ofc), to możemy przygotować więcej. Może na razie jeszcze nie wszystkie Wasze materiały, bo nie mamy mocy na to, ale kilka wybranych, "ważnych", bardzo chętnie.
dzięki zarzucę temat na spotkaniu @icd

CC: @ola @agnieszka @kuba
Ten wpis został zedytowany (1 rok temu)
@arek @icd Jak trochę temu bawiłem się Whisperem, zauważyłem poważne problemy gdy jest wielu mówców albo zachodzi zmiana języka. Udało się wam (albo komuś innemu) obejść jakoś ten problem?
@PiTau póki co udało się ręczną weryfikacją, a to sporo roboczogodzin wymaga @ftdl @icd
@arek @icd Rozumiem, sam próbowałem składać napisy Whisperem i wiem ile idzie na poprawianie tego.

Może rzucam już zastosowane porady ale na wszelki, jeśli timestampy wam się desynchronizują coraz bardziej z każdą ramką, to trzeba wyłączyć condition on previous. Dawało mi to ledwie mierzalny wzrost błędów transkrypcji, a desynchronizacja była sporadyczna i ograniczona do jednej ramki.
@arek ale to też z tym który wyżej był podrzucony od nas?
my uzywamy najwiekszych modeli na GPU w naszej serwerowni...
Ostatnio tylko problem był z wywiadem z palestyńczykiem mówiącym po polsku... po prostu problem był ze akcentem. Ale ogólnie wynik i tak był całkiem niezły... dalej z kontekstu dało sie wylapac wszystko.

@PiTau Przyznam szczerze ze jedynie problem zdarza się że rozpocznie jakiś tekst zanim zaczną się słowa... Nie wiem czy też tego nie ogarnąć używając jakiegoś systemu Voice Activation Detection

@ftdl @icd
@piotrsikora @arek @icd
Znajomy próbował bawić się z VADami ale wstępne efekty były takie se. Jeszcze go podpytam jak to było. Tak długo jak okazyjnie timestamp jest przesunięty, jest to mało uciążliwe. Ja pisałem o kaskadzie desynchronizacji gdzie wszystko po pewnym punkcie jest przesunięte.

Ale też nie ubolewajcie nad jakością napisów za bardzo. Whisperowi daleko do przestrzegania zasad tworzenia napisów, więc i tak będą one doraźne, a nie dobre.

https://kulturabezbarier.org/wp-content/uploads/2019/12/Napisy-dla-nieslyszacych_zasady-tworzenia_2019.pdf
@PiTau
IMHO to wciąż kwestia jakości źródła, nie wchodzenia sobie w słowa i ewentualnego dotrenowania modelu.
Jedna z lepszych transkrypcji tutaj: https://www.youtube.com/watch?v=KKZn2YKidc4
zero edycji... prosto jest to wrzucone
@arek @ftdl @icd
@piotrsikora skoro nie można sobie wchodzić w słowa to obawiam się, że nie zdałoby to egzaminu w Sejmie 😜

@PiTau @arek @ftdl @icd
@mstankiewicz @piotrsikora @arek @icd Niby żartobliwy komentarz ale Whisper ma bardzo dużo poważnych ograniczeń, które powodują że napisy nie spełniają pełnych standardów dla osób niesłyszących. Nie ma rozpoznawania mówcy i podpisu mówcy, nie ma brania pod uwagę montażu czy widoczności źródeł dźwięku. Timestampowanie jest takie sobie, nie ma krojenia długich zdań złożonych. Tu są zalecenia:
https://kulturabezbarier.org/wp-content/uploads/2019/12/Napisy-dla-nieslyszacych_zasady-tworzenia_2019.pdf

Ale to nadal lepsze niż zupełny brak napisów.
@PiTau
Z chęcią się wczytam... co do out-of-sync dorwałęm coś takiego w komentarzy kodu do parametru:
condition_on_previous_text: If True, the previous output of the model is provided
as a prompt for the next window; disabling may make the text inconsistent across
windows, but the model becomes less prone to getting stuck in a failure loop,
such as repetition looping or timestamps going out of sync.

Co do rozpoznawania mówcy to już są powoli opcje... jeszcze średnio działają, ale już jest na tym praca. zaawansowana.

@mstankiewicz @arek @ftdl @icd
@piotrsikora To ta opcja, jak testowałem ze znajomym Whispera rok temu, skutecznie przenosiła desynchronizację timestampów. Możliwe, że faster-whisper to poprawia albo nie robiliście testów z trudnym, czy zawierającym żarty montażowe audio.

Obecność języka polskiego w tej samej ramce co krótki klip z Naruto w oryginale, wywaliła cyrylicę i ponad minutę opóźnienia wszystkich późniejszych napisów. Co ciekawe, późniejsze napisy miały oczekiwane WER i CER.

@mstankiewicz @arek @ftdl @icd
@Arkadiusz Wieczorek @Internet. Czas działać! 🌎 @Fundacja Technologie dla Ludzi
Ja sobie wczoraj puściłem test na kawałku swojego materiału (nagranie w plenerze) na wszystkich modelach, od najmniejszego od największego.
I jakie było moje zdziwienie, kiedy model medium na końcu prawie bezbłędnej transkrypcji (jedna litera do poprawy), na samym końcu ,w zupełniej ciszy usłyszał nie istniejące zdanie "Dziękuję za uwagę i do zobaczenia w kolejnym odcinku!" 😮.
@miklo no jest to trenowane na różnych danych, bawię się z takimi rzeczami w pracy i wcale mnie to nie dziwi @ftdl @icd
sporo tych NAPI sie narobilo ostatnio. My tez mamy swoje :)

https://git.nove.team/nove-org/NAPI