Stable Audio Open: Um Modelo de Geração de Áudio Avançado
Stable Audio Open é um modelo inovador que traz novas possibilidades para a criação de áudio. Ele é otimizado para gerar amostras curtas de áudio, efeitos sonoros e elementos de produção a partir de prompts de texto.
Core Features
- Modelo de código aberto: Isso permite que a comunidade tenha acesso e possa contribuir para o seu desenvolvimento.
- Geração de alta qualidade: Produz áudio de alta qualidade, ideal para diversas aplicações, como produção musical e design de som.
- Até 47 segundos de amostras: Oferece a capacidade de criar trechos de áudio de duração considerável.
Basic Usage Para usar o Stable Audio Open, siga estes passos simples:
- Baixe o modelo do Hugging Face:
git clone https://huggingface.co/stabilityai/stable-audio-open-1.0
- Instale as dependências:
pip install torch torchaudio stable_audio_tools einops
- Importe as bibliotecas necessárias:
import torch import torchaudio from einops import rearrange from stable_audio_tools import get_pretrained_model from stable_audio_tools.inference.generation import generate_diffusion_cond import gradio as gr
- Carregue o modelo:
model, model_config = get_pretrained_model('stabilityai/stable-audio-open-1.0') model = model.to(device)
- Gere o áudio:
output = generate_diffusion_cond( model, steps=100, cfg_scale=7, conditioning=conditioning, sample_size=sample_size, sigma_min=0.3, sigma_max=500, sampler_type="dpmpp-3m-sde", device=device )
- Salve o áudio:
output = rearrange(output, "b d n -> d (b n)") output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu() torchaudio.save("output.wav", output, sample_rate)
Com o Stable Audio Open, os usuários têm a oportunidade de explorar novas formas de criar áudio de forma eficiente e criativa.