Новости MicrosoftПоследние новости

Microsoft объявляет о новых HD-голосах с улучшенной выразительностью в Azure AI Speech

Логотип Azure Fluent Design

В прошлом году Microsoft представила суперреалистичные голоса ИИ оптимизированые для диалоговых сценариев, включая чат-ботов, голосовых помощников, игр и многого другого. Разработчики смогли использовать эти нейронные голоса преобразования текста в речь (TTS) в своих приложениях с помощью Azure Speech SDK или REST API. За последние несколько месяцев Microsoft добавила несколько новых нейронных голосов для преобразования текста в речь (TTS) для разработчиков. Сейчас Microsoft предлагает более 500 нейронных голосов на более чем 140 языках и регионах.

Сегодня Microsoft анонсировала новую улучшенную HD-версию своей нейронной службы преобразования текста в речь для избранных голосов. Новые голоса HD повышают общую выразительность благодаря распознаванию эмоций на основе контекста ввода текста. Microsoft утверждает, что новейшие голоса HD основаны на языковых моделях авторегрессионного преобразователя и говорят в тембре голоса выбранной платформы. Они предлагают следующие преимущества:

  • Генерация человеческой речи: новая модель точно интерпретирует входной текст и понимает лежащие в его основе настроения, автоматически регулируя тон речи в соответствии с передаваемыми эмоциями в реальном времени.
  • Разговорный: новая модель может производить спонтанные паузы и акценты. Microsoft утверждает, что эта модель может воспроизводить распространенные фонемы, такие как паузы и слова-вставки.
  • Вариации просодии: эта новая голосовая система HD повышает реалистичность, внося небольшие изменения в каждый выходной сигнал, что делает звучание речи еще более естественным. По сути, каждое предложение будет звучать иначе, чем все ранее сказанные.

Гарфилд Хе, менеджер программы Cognitive Services Speech в Microsoft, сказал следующее о запуске HD voice:

«Благодаря инновационной технологии, которая использует акустические и лингвистические особенности для создания речи, наполненной богатыми, естественными вариациями, она может умело обнаруживать эмоциональные сигналы в тексте и автономно регулировать тон и стиль голоса. Благодаря этому обновлению вы можете ожидать более человечного звука. речевой образец, характеризующийся улучшением интонации, ритма и эмоций».

Вы можете просмотреть образец аудиоконтента, созданного с использованием этой модели голоса HD, в видео ниже.

Новые голоса HD доступны в предварительной версии для разработчиков в трех регионах: Восточная часть США, Западная Европа и Юго-Восточная Азия. Стоимость HD-голосов составит 30 долларов за 1 миллион символов.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *


Back to top button