Beautiful Soup: Uma Biblioteca Poderosa para Raspagem de Dados
Beautiful Soup é uma biblioteca Python projetada para projetos de rápida execução, como a raspagem de tela. Desde 2004, tem ajudado programadores a economizar horas ou dias de trabalho nesses projetos.
Três características a tornam poderosa. Ela fornece alguns métodos simples e idiomas Pythonicos para navegar, pesquisar e modificar uma árvore de análise. É uma ferramenta para dissecar um documento e extrair o que você precisa.
Beautiful Soup converte automaticamente documentos recebidos para Unicode e documentos enviados para UTF-8. Isso evita que você precise se preocupar com codificações, exceto quando o documento não especifica uma codificação e Beautiful Soup não consegue detectar uma. Nesse caso, você precisa especificar a codificação original.
Ela fica sobre parsers populares do Python como lxml e html5lib, permitindo que você experimente diferentes estratégias de análise ou troque velocidade por flexibilidade. Beautiful Soup analisa qualquer coisa que você lhe forneça e faz o trabalho de percorrer a árvore para você.
Com Beautiful Soup, dados valiosos que antes estavam presos em websites mal projetados agora estão ao seu alcance. Projetos que levariam horas agora levam apenas minutos.
Recursos Principais
- Métodos simples e idiomas Pythonicos para manipulação de dados.
- Conversão automática de codificações.
- Compatibilidade com diversos parsers.
Uso Básico
Você pode instalar Beautiful Soup 4 com pip install beautifulsoup4
. Está disponível em várias distribuições Linux. Beautiful Soup 4 é suportado em versões do Python 3.6 e superiores. Já o Beautiful Soup 3 não suporta Python 3 e foi descontinuado.
Ao longo dos anos, Beautiful Soup tem sido usado em centenas de projetos diferentes, como em obras de arte, rastreamento de informações médicas, análise de páginas da web e muito mais.