Bark: Um Modelo de Áudio Gerativo Baseado em Texto
Bark, criado pela Suno, é um modelo transformador de texto para áudio. Ele pode gerar fala multilingue altamente realista, bem como outros tipos de áudio, incluindo música, ruído de fundo e efeitos sonoros simples. Além disso, o modelo também pode produzir comunicações não verbais, como risadas, suspiros e choros.
O Bark foi desenvolvido para fins de pesquisa e não é um modelo de texto para fala convencional. É um modelo de texto para áudio totalmente gerativo, capaz de se desviar de formas inesperadas dos prompts fornecidos. A Suno não se responsabiliza por qualquer saída gerada. Use por sua própria conta e risco e aja com responsabilidade.
O modelo suporta várias línguas prontamente e determina automaticamente a língua a partir do texto de entrada. Quando solicitado com texto com mudança de código, o Bark tentará empregar o sotaque nativo para as respectivas línguas. A qualidade do inglês é a melhor no momento, mas espera-se que outras línguas melhorem com a escala.
O Bark também pode gerar todos os tipos de áudio e, em princípio, não vê diferença entre fala e música. Às vezes, o Bark escolhe gerar texto como música, mas você pode ajudá-lo adicionando notas musicais ao redor de suas letras.
O Bark suporta mais de 100 predefinições de voz em línguas suportadas. Você pode navegar na biblioteca de predefinições de voz suportadas ou no código. A comunidade também costuma compartilhar predefinições no Discord.
Para instalar o Bark, existem várias opções. É importante evitar usar pip install bark
, pois instala um pacote diferente. As instruções corretas estão detalhadas no conteúdo fornecido.
O Bark foi testado e funciona tanto em CPU quanto em GPU. Dependendo do hardware, a velocidade de inferência pode variar. Para GPUs mais antigas ou CPU, pode ser necessário considerar o uso de modelos menores.
Além disso, o Bark segue uma arquitetura de estilo GPT semelhante a AudioLM e Vall-E e uma representação de áudio quantizada do EnCodec. Diferente de abordagens anteriores, o prompt de texto de entrada é convertido diretamente em áudio sem o uso intermediário de fonemas.