suno-ai/bark: Modelo de Áudio Gerativo Baseado em Texto

Bark: Um Modelo de Áudio Gerativo Baseado em Texto

Bark, criado pela Suno, é um modelo transformador de texto para áudio. Ele pode gerar fala multilingue altamente realista, bem como outros tipos de áudio, incluindo música, ruído de fundo e efeitos sonoros simples. Além disso, o modelo também pode produzir comunicações não verbais, como risadas, suspiros e choros.

O Bark foi desenvolvido para fins de pesquisa e não é um modelo de texto para fala convencional. É um modelo de texto para áudio totalmente gerativo, capaz de se desviar de formas inesperadas dos prompts fornecidos. A Suno não se responsabiliza por qualquer saída gerada. Use por sua própria conta e risco e aja com responsabilidade.

O modelo suporta várias línguas prontamente e determina automaticamente a língua a partir do texto de entrada. Quando solicitado com texto com mudança de código, o Bark tentará empregar o sotaque nativo para as respectivas línguas. A qualidade do inglês é a melhor no momento, mas espera-se que outras línguas melhorem com a escala.

O Bark também pode gerar todos os tipos de áudio e, em princípio, não vê diferença entre fala e música. Às vezes, o Bark escolhe gerar texto como música, mas você pode ajudá-lo adicionando notas musicais ao redor de suas letras.

O Bark suporta mais de 100 predefinições de voz em línguas suportadas. Você pode navegar na biblioteca de predefinições de voz suportadas ou no código. A comunidade também costuma compartilhar predefinições no Discord.

Para instalar o Bark, existem várias opções. É importante evitar usar pip install bark, pois instala um pacote diferente. As instruções corretas estão detalhadas no conteúdo fornecido.

O Bark foi testado e funciona tanto em CPU quanto em GPU. Dependendo do hardware, a velocidade de inferência pode variar. Para GPUs mais antigas ou CPU, pode ser necessário considerar o uso de modelos menores.

Além disso, o Bark segue uma arquitetura de estilo GPT semelhante a AudioLM e Vall-E e uma representação de áudio quantizada do EnCodec. Diferente de abordagens anteriores, o prompt de texto de entrada é convertido diretamente em áudio sem o uso intermediário de fonemas.

suno

Bark: Um Modelo de Áudio Gerativo Baseado em Texto

Categorias Relacionadas ao suno

Texto para Fala

Criação de Conteúdo com IA

Criação Musical

Mais Ferramentas de IA

Ferramentas de IA em Destaque

beepbooply

SpeechGen.io

ChatTTS

Murf AI

TikTok Voice Generator

Speechki

Anycast

Voice Out

Verbatik

Typecast

Text2Audio

The Voice AI Platform

BlogToPod

RELAIED

Clipboard TTS

AI Voice Generator Bot

OpenAI Text To Speech WebUI

Insula

makeaudio.app

Google Cloud Text