Гугъл представи новата система за преобразуване на текст в човешка реч

Снимка: Pixabay

Google съобщи, че създаването на система за преобразуване на текст в естествено звучаща човешка реч е една от приоритетните цели на корпорацията. Новата версия Tacotron 2 на тази система се справя с тази задача много по-ефективно от предишните Tacotron и WaveNet, при това с използването на по-малко ресурси, информира "Калдата".

Предишните системи за генериране на реч имаха съществени недостатъци. WaveNet например, издава неочаквани и режещи звука звуци. Нейният алгоритъм много ефективно преобразува текста, но за неговата успешна работа е необходимо огромно количество метаданни от произношението до специфичните езикови особености. Tacotron се справя много по-добре с интонациите, но не може да предложи пълноценно преобразуване.

В Tacotron 2 са отстранени недостатъците на предишните системи. Използвани са успешните функции на предишните алгоритми с усъвършенствана система за натрупване на данните за обучение.

За изчисляването на лингвистичните правила, алгоритъмът има нужда от самия текст и неговото озвучаване, от които се образува специална Tacotron спектрограма, чрез която се определя ритъма и ударенията, а думите се генерират от функциите на WaveNet.

Демонстрационните записи показват, че генерираната от компютъра реч наистина много прилича на човешката, само някои думи са малко неясни. Темпът на речта е убедителен, произношението е добро. Понякога ударенията са неправилни и засега липсва тон – няма как фразите да бъдат произнесени весело и оптимистично или грубо и самоуверено.

ПОКАЖИ КОМЕНТАРИТЕ
Принц Хари и Меган искат 100 000 долара за вечеря
Брад Пит поведе в делото срещу Анджелина Джоли
Актьорът Георги Мамалев има второ внуче
Накъде с децата през уикенда (20-21 декември)
Кристин Кабот, уволнена след афера на концерт на Coldplay: Превърнах се в меме

Напишете дума/думи за търсене