Crie documentos JSON estruturados com transcrições de palestras TED Talks extraindo diretamente da página, usando Python e Beautiful Soup 4
Esse projeto foi desenvolvido como um subsídio para a resolução do Desafio 3 - FIAP, da Maratona Behind the Code 2020.
Encontre no arquivo ted.py a lógica para extração de texto do TED Talks e criação do documento, e no arquivo challenge.py as URLs pedidas no desafio 3 da Maratona Behind the Code 2020.
Para criar os documentos JSON de palestras TED Talks necessários para o desafio, siga esses passos:
- Instale Python 3;
- Abra um terminal de comandos e instale a biblioteca Beautiful Soup 4 executando o seguinte comando:
pip install bs4
; - Instale Git, se ainda não tiver na sua máquina;
- Clone esse repositório executando
git clone https://github.com/danitrod/ted-talks-scraper.git
e acesse o repositório comcd ted-talks-scraper
; - Execute o programa com
python challenge.py
. Os arquivos JSON serão automaticamente criados na mesma pasta.
Observação: após a extração dos textos do TED Talks, recomendo fortemente que você crie um outro arquivo baseado no ted.py e modifique o que for necessário para extração dos textos da Olhar Digital.
MIT License
Copyright (c) 2020 Daniel T. Rodrigues