Skip to content

[PORTUGUÊS] Extração de transcrições de palestras TED Talks

License

Notifications You must be signed in to change notification settings

danitrod/ted-talks-scraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

TED Talks Scraper

Sobre

Crie documentos JSON estruturados com transcrições de palestras TED Talks extraindo diretamente da página, usando Python e Beautiful Soup 4

Maratona Behind the Code

Esse projeto foi desenvolvido como um subsídio para a resolução do Desafio 3 - FIAP, da Maratona Behind the Code 2020.

Encontre no arquivo ted.py a lógica para extração de texto do TED Talks e criação do documento, e no arquivo challenge.py as URLs pedidas no desafio 3 da Maratona Behind the Code 2020.

Para criar os documentos JSON de palestras TED Talks necessários para o desafio, siga esses passos:

  1. Instale Python 3;
  2. Abra um terminal de comandos e instale a biblioteca Beautiful Soup 4 executando o seguinte comando: pip install bs4;
  3. Instale Git, se ainda não tiver na sua máquina;
  4. Clone esse repositório executando git clone https://github.com/danitrod/ted-talks-scraper.git e acesse o repositório com cd ted-talks-scraper;
  5. Execute o programa com python challenge.py. Os arquivos JSON serão automaticamente criados na mesma pasta.

Observação: após a extração dos textos do TED Talks, recomendo fortemente que você crie um outro arquivo baseado no ted.py e modifique o que for necessário para extração dos textos da Olhar Digital.

Licença

MIT License

Copyright (c) 2020 Daniel T. Rodrigues

About

[PORTUGUÊS] Extração de transcrições de palestras TED Talks

Topics

Resources

License

Stars

Watchers

Forks

Languages