Z życia Fundacji:
Karta GPU GTX 1080 Ti montowana w serwerze.
Przygotowania do generowania napisów i transkrypcji z audio w języku polskim za pomocą LLM whisper.cpp w projekcie #NapiGen (wcześniej NapGenPL).
Czyli napisy do #PeerTube i YouTube oraz transkrypcje do podkastów !
Oprogramowanie z naszymi "kustomizacjami" sprawdzone jest już na laptopach i na wynajętych serwerach z GPU (na godziny), niebawem będziemy mieli własny.
Serwer trzeba jeszcze doposażyć, m. in. w dodatkowy RAM, ale o tym później 😉
#FTdLKurier #FTdL #WspieramFtdl
Karta GPU GTX 1080 Ti montowana w serwerze.
Przygotowania do generowania napisów i transkrypcji z audio w języku polskim za pomocą LLM whisper.cpp w projekcie #NapiGen (wcześniej NapGenPL).
Czyli napisy do #PeerTube i YouTube oraz transkrypcje do podkastów !
Oprogramowanie z naszymi "kustomizacjami" sprawdzone jest już na laptopach i na wynajętych serwerach z GPU (na godziny), niebawem będziemy mieli własny.
Serwer trzeba jeszcze doposażyć, m. in. w dodatkowy RAM, ale o tym później 😉
#FTdLKurier #FTdL #WspieramFtdl
8 użytkowników udostępniło to dalej
Jakub Rojek
•Sebastian
•Jest, jeszcze go doposażamy, ram-u mało ;)
#FTdLHardware
@ftdl
2 użytkowników udostępniło to dalej
Fundacja Technologie dla Ludzi i m0biudostępnił to.
Paweł Szczur :pix_mastodon:
•Fundacja Technologie dla Ludzi
•Piotr Sikora
•Fundacja Technologie dla Ludzi
•top, htop, btop, co kto lubi.
@sebastian @SceNtriC
Tom Gwynplaine 🦝
•Piotr Sikora
•Pogłaskany ;)
2 ludzi lubi to
Robert "Szkodnix" :mi: i Wiktor - wikiyu lubię to.
4 użytkowników udostępniło to dalej
Fundacja Technologie dla Ludzi, Kierunkowy74, savi i Błażej Kowalczykudostępnił to.
szescstopni
•Jakub
•@piotrsikora @tomgwynplaine @ftdl
szescstopni
•Jakub
•Chyba tak.
@piotrsikora @tomgwynplaine @ftdl
szescstopni
•Tom Gwynplaine 🦝
•https://www.infokrakow24.pl/38664/superkomputer-zeus-dla-polskich-naukowcow-zdjecia/
Superkomputer ZEUS dla polskich naukowców [ zdjęcia ]
INFO Kraków24 - Serwis InformacyjnyJakub
•https://aszdziennik.pl/116367,polska-znow-na-jezykach-swiata-poswiecenie-serwerowni-hitem-internetu-zdjecie
Tutaj wspominają, że to serwerownia Onetu
@piotrsikora @tomgwynplaine @ftdl
Polska Chrystusem sieci. Poświęcenie serwerowni przez kard. Dziwisza zniszczyło światowy internet
ASZdziennik (ASZdziennik.pl)szescstopni
•Piotr Sikora
•Ten dziś jest na 155 miejscu na świecie.
Żadnej uczelni na liście 500 najsłodszych na świecie nie mamy, ale superkomputery AGH ma chyba nieprzerwanie od lat 90.
Abp Jędraszewski poświęcił superkomputer AGH. "Najszybszy w Polsce"
Life in KrakówJakub
•Coś tu jest chyba stwarzane 😁
@tomgwynplaine @ftdl
Sebastianudostępnił to.
Piotr Sikora
•Włóczykij
•#NapiGen #PeerTube #FTdLKurier #FTdL #WspieramFtdl
Fundacja Technologie dla Ludzi
•Home Office :)
Arkadiusz Wieczorek
•Fundacja Technologie dla Ludzi
•Rezultaty są bardzo dobre. Mamy kilka przykładów, gdzie nie trzeba było wiele lub prawie nic poprawiać. Dodatkowo, w json raportuje nam, gdzie ma wątpliwości, i to będzie wykorzystane w edytorze do szybkiego podświetlenia miejsc wątpliwych i korekty.
Korekta zawsze jest niezbędnym etapem, bo nie powinno się "ufać" LLM, zwłaszcza przy nazwiskach, nazwach własnych i innych nietypowych, rzadszych sformułowaniach.
Ale wygląda to bardzo obiecująco.
Przykład:
https://tube.pol.social/w/1XRcn7jsZi2SphbRc58nme
Znajdziesz też napisy wygenerowane przez nas na YT na kanałach Piotra Czabana i GilotynaTV.
Są zadowoleni :)
@icd
Fundacja Technologie dla Ludzi
•A może daj nam link do jakiegoś Twojego materiału, zrobimy test na nim w wolnej chwili i podeślemy wyniki raw, bez korekty?
@icd
Arkadiusz Wieczorek
•Fundacja Technologie dla Ludzi
•Cześć
Tutaj przetworzone pliki:
https://nch.pl/s/nLy2k89G4gEpDPY
I screenshot z output, raczej było "zielono". Pliki raw, niepoprawiane.
Jeśli ten materiał się przyda do napisów (srt są gotowe do wrzucenia jako format, do korekty ofc), to możemy przygotować więcej. Może na razie jeszcze nie wszystkie Wasze materiały, bo nie mamy mocy na to, ale kilka wybranych, "ważnych", bardzo chętnie.
ICD
NCHArkadiusz Wieczorek
•CC: @ola @agnieszka @kuba
PiTau
•Arkadiusz Wieczorek
•PiTau
•Może rzucam już zastosowane porady ale na wszelki, jeśli timestampy wam się desynchronizują coraz bardziej z każdą ramką, to trzeba wyłączyć condition on previous. Dawało mi to ledwie mierzalny wzrost błędów transkrypcji, a desynchronizacja była sporadyczna i ograniczona do jednej ramki.
Fundacja Technologie dla Ludzi
•cc @piotrsikora
Piotr Sikora
•my uzywamy najwiekszych modeli na GPU w naszej serwerowni...
Ostatnio tylko problem był z wywiadem z palestyńczykiem mówiącym po polsku... po prostu problem był ze akcentem. Ale ogólnie wynik i tak był całkiem niezły... dalej z kontekstu dało sie wylapac wszystko.
@PiTau Przyznam szczerze ze jedynie problem zdarza się że rozpocznie jakiś tekst zanim zaczną się słowa... Nie wiem czy też tego nie ogarnąć używając jakiegoś systemu Voice Activation Detection
@ftdl @icd
PiTau
•Znajomy próbował bawić się z VADami ale wstępne efekty były takie se. Jeszcze go podpytam jak to było. Tak długo jak okazyjnie timestamp jest przesunięty, jest to mało uciążliwe. Ja pisałem o kaskadzie desynchronizacji gdzie wszystko po pewnym punkcie jest przesunięte.
Ale też nie ubolewajcie nad jakością napisów za bardzo. Whisperowi daleko do przestrzegania zasad tworzenia napisów, więc i tak będą one doraźne, a nie dobre.
https://kulturabezbarier.org/wp-content/uploads/2019/12/Napisy-dla-nieslyszacych_zasady-tworzenia_2019.pdf
Piotr Sikora
•IMHO to wciąż kwestia jakości źródła, nie wchodzenia sobie w słowa i ewentualnego dotrenowania modelu.
Jedna z lepszych transkrypcji tutaj: https://www.youtube.com/watch?v=KKZn2YKidc4
zero edycji... prosto jest to wrzucone
@arek @ftdl @icd
Mirosław Miniszewski: Niewiele potrzeba, żeby stać się bestią
YouTubeFundacja Technologie dla Ludziudostępnił to.
Michał Stankiewicz :verified:
•@PiTau @arek @ftdl @icd
PiTau
•https://kulturabezbarier.org/wp-content/uploads/2019/12/Napisy-dla-nieslyszacych_zasady-tworzenia_2019.pdf
Ale to nadal lepsze niż zupełny brak napisów.
Piotr Sikora
•Z chęcią się wczytam... co do out-of-sync dorwałęm coś takiego w komentarzy kodu do parametru:
condition_on_previous_text: If True, the previous output of the model is provided
as a prompt for the next window; disabling may make the text inconsistent across
windows, but the model becomes less prone to getting stuck in a failure loop,
such as repetition looping or timestamps going out of sync.
Co do rozpoznawania mówcy to już są powoli opcje... jeszcze średnio działają, ale już jest na tym praca. zaawansowana.
@mstankiewicz @arek @ftdl @icd
PiTau
•Obecność języka polskiego w tej samej ramce co krótki klip z Naruto w oryginale, wywaliła cyrylicę i ponad minutę opóźnienia wszystkich późniejszych napisów. Co ciekawe, późniejsze napisy miały oczekiwane WER i CER.
@mstankiewicz @arek @ftdl @icd
Arkadiusz Wieczorek
•MiKlo:~/citizen4.eu$💙💛
Ja sobie wczoraj puściłem test na kawałku swojego materiału (nagranie w plenerze) na wszystkich modelach, od najmniejszego od największego.
I jakie było moje zdziwienie, kiedy model medium na końcu prawie bezbłędnej transkrypcji (jedna litera do poprawy), na samym końcu ,w zupełniej ciszy usłyszał nie istniejące zdanie "Dziękuję za uwagę i do zobaczenia w kolejnym odcinku!" 😮.
Fundacja Technologie dla Ludzi lubi to.
Arkadiusz Wieczorek
•MiKlo:~/citizen4.eu$💙💛
W związku z tym pytanie czy to co będzie udostępnione na serwerach @Fundacja Technologie dla Ludzi będzie miało opcję wyboru modelu który robi transkrypcję ?
Nove
•https://git.nove.team/nove-org/NAPI
NAPI
GItea