Nowa sztuczna inteligencja sklonuje twój głos i pozwoli ci mówić w wielu językach
W styczniu Microsoft zaprezentował sztuczną inteligencję, która może sklonować głos mówiącego po wysłuchaniu go przez zaledwie trzy sekundy. Bez wątpienia system VALL-E to kolejny przełomowy algorytm – jego dokładność i zdolność analizy głosu po tak krótkim nagraniu stawiają wysoko poprzeczkę dla technologii tego typu.
To oczywiście nie koniec pracy nad algorytmem. Jego nowa aktualizacja o nazwie VALL-E X umożliwia nie tylko sklonowanie głosu z krótkiej próbki, ale też wykorzystanie go do syntezy mowy w innym języku, zachowując jednocześnie oryginalny głos, emocje i ton mówiącego. Microsoft nie udostępnił jeszcze publicznie VALL-E X, ale utworzył stronę demonstracyjną, która zawiera nagrania danej osoby (lub jej głosowego klona wygenerowanego przez AI), gdy mówi w języku angielskim i chińskim.
Wkrótce możemy żyć w świecie, w którym każdy będzie mówił w dowolnym języku – a to może mieć ogromne konsekwencje.
W taki sposób mogą być np. tworzone audiobooki. Oszczędziłoby to konieczności spędzenia wielu dni w studiu nagraniowym lub zatrudnienia wielu profesjonalistów. Skorzystaliby na tym również filmowcy, podcasterzy czy inni twórcy, ponieważ mogliby dotrzeć do nowych odbiorców.
Klonowanie głosu może pomóc również ludziom, którzy stracili własny głos w wyniku choroby lub urazu. Po stworzeniu takiego odpowiednika mogą sparować go z aplikacjami do zamiany tekstu na mowę lub oprogramowaniem do śledzenia ruchu gałek ocznych, aby komunikować się własnym głosem. Na podobne rozwiązanie zdecydował się swego czasu aktor Val Kilmer. Po walce z rakiem gardła, który uniemożliwił mu wyraźne mówienie, firma AI Sonantic wykorzystała 30 minut dźwięku z poprzednich filmów, w których wystąpił aktor, aby stworzyć sklonowaną wersję jego głosu.
Kilmer może teraz używać go w dubbingu, co ostatnio zrobił w ‘Top Gun: Maverick’.
Nie jest to jednak wyłącznie pozytywna sytuacja. Niedawno Motherboard poinformowało, że studia wywierają presję na aktorów, aby zgodzili się na sklonowanie swoich głosów. Teoretycznie mogliby więc otrzymać zapłatę za jedną sesję w studiu nagraniowym, a następnie usłyszeć, jak sklonowany głos zastępuje ich w przyszłej pracy. Niestety niektórzy już tworzą umowy w mylący sposób, żeby aktorzy nie byli w stanie zorientować się, że ich głos w przyszłości miałby zostać sklonowany. Wielu nieświadomych już podpisało takie zobowiązania.
@emergingtechnologyhub Microsoft VALL-E can simulate anyone’s voice after listening to it for 3 seconds. Microsoft have withheld the code due to concerns of potential unethical uses, such as bypassing voice biometric locks and much more. #valle #microsoftvalle #ai #aivoice #technews #ainews ♬ Here With Me – d4vd
Nowe technologie związane z klonowaniem głosu są zarazem ekscytujące i niebezpieczne. Microsoft zdaje sobie z tego sprawę – strony demonstracyjne zarówno dla VALL-E, jak i VALL-E X kończą się oświadczeniami dotyczącymi etyki, podkreślającymi kwestie bezpieczeństwa.
Firma wspomniała również o możliwości stworzenia systemu do wykrywania klonów głosu AI w celu ograniczenia ryzyka.
Chociaż nic takiego jeszcze nie powstało, już możemy obserwować, jak inni pracują nad nowymi sposobami odróżniania głosów generowanych przez sztuczną inteligencję od głosów ludzkich.
Tekst: MZ