A OpenAI começou a liberar nesta terça-feira uma versão alfa de seu novo Modo de Voz Avançado para um pequeno grupo de assinantes do ChatGPT Plus. A função, apresentada em maio com o lançamento do GPT-4, busca tornar as conversas com a inteligência artificial mais naturais e responsivas. Apesar das críticas iniciais sobre a simulação de emoções e acusações de plágio de voz, os primeiros testes compartilhados nas redes sociais têm sido amplamente positivos.
A nova função permite conversas em tempo real com o ChatGPT, incluindo a possibilidade de interromper a IA instantaneamente. O sistema é capaz de detectar e responder a nuances emocionais na voz do usuário e até mesmo inserir efeitos sonoros durante as narrativas. Mas o que mais surpreendeu os primeiros testadores foi a simulação realista da respiração humana durante as falas.
A capacidade de “inspirar ar” foi adquirida pelo modelo após ser treinado com milhões de amostras de voz humana que incluíam essa característica. Grandes modelos de linguagem como o GPT-4 são mestres da imitação, e essa habilidade agora se estende ao áudio.
Além da respiração, usuários também destacaram a rapidez das respostas, a capacidade de imitar sotaques e criar efeitos sonoros. Alguns compartilharam exemplos impressionantes, como o ChatGPT interpretando diferentes personagens em uma mesma história ou até mesmo cantando uma ópera.
A OpenAI afirma ter trabalhado com mais de 100 testadores em 29 países para garantir a segurança da função. Foram implementados filtros para evitar imitações de pessoas ou figuras públicas, além de bloquear solicitações de geração de música ou outros conteúdos protegidos por direitos autorais.
O Modo de Voz Avançado estará disponível para todos os assinantes do ChatGPT Plus ainda neste ano. A empresa afirma estar preparada para lidar com o aumento significativo de uso esperado com o lançamento completo da função.