Ši internetinė programėlė palengvina teksto į garsą (Text-to-Speech) įrašų kūrimą ir tikrinimą įvairiais dialektais – tai itin svarbu mokant natūralios kalbos generavimo modelius. Programėlė taip pat palaiko kalbėtojų atskyrimą (angl. speaker diarization), kai dalyviai anotuoja garso įrašus, pažymėdami skirtingus kalbančiuosius. Tai leidžia DI tiksliau atskirti balsus pokalbiuose. Pasitelkiant bendruomeninį tikrinimo procesą, įrankis užtikrina aukštos kokybės, įvairialypius duomenų rinkinius, kurie padeda pagerinti kalbos technologijų tikslumą.
Technologijų įmonė, besispecializuojanti natūralios kalbos apdorojimo ir balso atpažinimo srityse, siekia sukurti pažangų mašininio mokymosi modelį, skirtą tiek kalbos generavimui, tiek kalbėtojų atskyrimui. Tam jiems reikia patikimo, įvairiapusio duomenų rinkinio, kad dirbtinio intelekto sistemos būtų mokomos efektyviai.
Garso anotavimo internetinė programėlė leidžia naudotojams prisidėti skaitant iš anksto paruoštus sakinius įvairiais dialektais. Tai padeda mokyti modelius atpažinti ir generuoti kalbos niuansus skirtingose kalbinėse grupėse. Įrašai nėra naudojami tiesiogiai – jie pereina patikros procesą, kurio metu kiti naudotojai klausosi įrašų, tikrina ar tekstas atitinka sakomą turinį, ir: Redaguoja tekstą, jei jis šiek tiek skiriasi nuo įrašo. Atmeta įrašą, jei jis labai nutolsta nuo pateikto teksto arba yra prastos garso kokybės. Šis žingsnis užtikrina, kad kalbos generavimo modeliams būtų naudojami tik aukštos kokybės duomenys, didinant gebėjimą generuoti natūraliai skambančią kalbą.
Siekiant anotavimo tikslumo, dalyviai analizuoja garso įrašus, kuriuose vyksta pokalbiai tarp dviejų ar daugiau kalbančiųjų. Jie: Naudodamiesi laiko juostos sąsaja žymi kalbėtojų segmentus, kada kiekvienas jų kalba. Jei jau yra buvę anotacijų, peržiūri ir pataiso jas, kad būtų užtikrintas aukštas tikslumas. Anotuoti duomenys įtraukiami į mašininio mokymosi procesą dviem kryptimis: Natūralios kalbos generavimas: Įvairūs įrašai padeda modeliams išmokti generuoti kalbą su natūraliomis intonacijomis, dialektiniais ypatumais ir balso modeliais. Kalbėtojų atskyrimas: Analizuodama anotacijas, sistema mokosi atskirti skirtingus balsus – tai pagerina balso technologijų, tokių kaip virtualūs asistentai ar transkripcijos įrankiai, tikslumą.
Sistema padeda išsaugoti tarmių įvairovę ir tobulinti dirbtinio intelekto gebėjimus.