Microsoft-dan İnsan Səslərini Təqlid Edə Bilən Süni İntellekt

Microsoft tədqiqatçıları bu yaxınlarda üç saniyəlik səs nümunəsi verildikdə insanın səsini dəqiq şəkildə təqlid edə bilən yeni mətndən nitqə süni intellekt modeli olan VALL-E-ni elan etdilər. VALL-E müəyyən bir səsi öyrəndikdə, natiqin emosional tonunu saxlamağa çalışarkən hər hansı bir şeyi deyən şəxsin səsini sintez edə bilir. VALL-E yaradıcıları hesab edirlər ki, GPT-3 kimi digər güclü süni intellekt modelləri ilə birləşdirildikdə, o, yüksək keyfiyyətli mətndən nitqə tətbiqlərində, nitqin redaktəsi üçün istifadə edilə bilər. Burada bir insanın ifadə etdiyi məzmun redaktə edilə, dəyişdirilə və əlavə səsli məzmun yaradıla bilər.

Bəli, insan səsi çox maraqlı xüsusiyyətlərə malikdir. İnsan səsindəki frekansların spektrinin vizual təsvirinə Spectrogram deyilir. Hər bir insan danışarkən səs izi buraxır və bu səs izi ilə bütün digər insanların səs izləri fərqlidir. İndiyə qədər yaşamış 100 milyarddan çox insanın səsi bənzərsizdir. Təkcə səs tellərimiz və ağız quruluşumuz fərqli deyil, həm də bədənimizin qalan hissəsi fərqlidir.

Bəs səsləri təqlid edənlər haqqında nə demək olar?

Əslində bu, səs təqlidi deyil, nitq təqlididir. Çünki danışıq tərzimiz səsdən fərqli olaraq zamanla inkişaf etdirdiyimiz bir xüsusiyyətdir. Hətta istəmədən bir-birimizin danışıq tərzinə də təsir edə bilərik. Bununla belə, səs izi belə deyil. Sadəcə dinləməklə onu təqlid etmək mümkün deyil.

Biz bunu edə bilmərik, amma kompüter edə bilər. Az əvvəl səsin frekanslarını görmüşdük. Bu daha da ətraflı təhlil edilsə nə olacaq?

Microsoft tədqiqatçıları məhz bu bu sualın cavabını araşdırırlar. Onlar VALL-E adlı bir model hazırladılar. "Neural codec language model - Nöral kodek dili modeli" olaraq təyin etdikləri bu sistemdə Meta tərəfindən 2022-ci ilin oktyabr ayında elan edilən EnCodec texnologiyası, istifadə edilmişdir.

Normalda mətni səsə çevirən mətndən nitqə sistemləri bunu səs dalğaları ilə manipulyasiya etməklə həyata keçirir. VALL-E insan səsini təhlil etməklə başlayır. O, bu məlumatı EnCodec-in köməyi ilə bir-birindən ayrı olan “token” adlanan kiçik komponentlərə çevirir. Burada işin süni intellekt hissəsi gəlir. O, 3 saniyəlik insan səsindən 3 dəqiqə danışa bilmək üçün yeni yazılmış cümlələrinizin maşın öyrənməsi vasitəsilə necə oxuna biləcəyini təxmin etməyə çalışır. Ona nə qədər çox məlumat versək, bu proqnoz bir o qədər dəqiq olur.

Əsasən bir insanın necə səs çıxartdığını analiz edir. Danışan şəxsin səs tembrini və emosional tonunu qorumaqla yanaşı, Microsoft-un həlli nümunə audionun “akustik mühitini” də təqlid edə bilər. Məsələn, tutaq ki, cari səs telefon zəngindən götürülüb. Səs çıxışı telefon zənginin akustik və frekans xüsusiyyətlərinin sintez edilmiş çıxışında simulyasiya edilir. EnCodec sayəsində o, bütün məlumatları təhlil edir və süni intellekt təlim modeli sayəsində verilən nümunədən başqa danışıq formasını proqnozlaşdıra bilir. Microsoft-un tərifi aşağıdakı kimidir:

“VALL-E fərdiləşdirilmiş nitq sintezi üçün dinamik və məzmun məlumatlarını məhdudlaşdıran 3 saniyəlik səsyazma ilə belə, səs məlumatlarına əsaslanan akustik məlumat və akustik nümunələr yaradır. Nəhayət, yaradılan akustik nümunələr müvafiq nöral kod həlli ilə yekun dalğa formasını sintez etmək üçün istifadə olunur.

Yayımlanan yazıların bəziləri olduqca təbii səslənsə də, bəzilərinin süni intellekt tərəfindən yaradıldığını başa düşmək olar. Əlbəttə ki, süni intellekt zaman keçdikcə daha yaxşı olmağa meyllidir. Buna görə də, gələcəkdə yaradılan yazılar çox güman ki, daha inandırıcı olacaq.

Microsoft, VALL-E-nin nitq sintezi imkanlarını Meta tərəfindən birləşdirilmiş LibriLight adlı səs kitabxanasında öyrətdi. Bu kitabxanada 7,000-dən çox natiq tərəfindən 60,000 saat ingilis dilində danışıq var, onların əksəriyyəti ictimaiyyətə açıq olan LibriVox audiokitablarından götürülmüşdür. Model səs nümunəsindəki şəxsin necə səsləndiyini təhlil edir, bu məlumatı müxtəlif komponentlərə ayırır, təlim məlumatlarından istifadə edir və sonra hamısını birləşdirir.

Bütün bunları dinləyərkən istər-istəməz təhlükəsizliklə bağlı narahatlıqlar başlayır. Bu səbəbdən modeli hazırlayan tədqiqatçılar belə bir açıqlama vermək zərurəti hiss etdilər:

“VALL-E natiq şəxsiyyətini təşkil edən nitq modelini sintez edə bildiyi üçün o, səs identifikasiyası və ya insanı təqlid etmək kimi modeldən sui-istifadə ilə bağlı potensial riskləri daşıya bilər. Bu cür riskləri azaltmaq üçün audio klipin VALL-E tərəfindən sintez edilib-edilmədiyini ayırd edəcək aşkarlama modeli yaratmaq mümkündür”.

Hazırda VALL-E istifadəçilər üçün əlçatan deyil. Bununla belə, süni intellekt vasitəsi ilə yaradılmış bəzi səs qeydləri nümunələri GitHub-da paylaşılıb.

Tofiq Aliyev

16-Yan-2023 350

OPTİMA ŞİRKƏTLƏR QRUPU

Microsoft-dan İnsan Səslərini Təqlid Edə Bilən Süni İntellekt

Biznesini avtomatlaşdırma haqqında suallarınız var? Gəlin müzakirə edək!

+994 12 310 26 27