- Caracter simples serão considerados como palavras, quando sozinhos: a => a, a++ => a++
- Maiúsculo => Minúsculo
- Removida a pontuação no final das palavras: magnet, => magnet
- O que esta sendo considerado como pontuação no final das palavras são:
- , vígual (ch == 44)
- . ponto final (ch == 46)
- ? interrogação (ch == 63)
- ! exclamação (ch == 33)
- : dois pontos (ch == 58)
- ; ponto e vírgula (ch == 59)
- A lista caracters abaixo não são considerados na palavra
- " Aspas duplas (ch=34)
- ' Aspas simples(ch=39)
- .( Abre parênteses (ch=40)
- ) Fecha parênteses (ch=41)
- .[ Abre colchetes (ch=91)
- ] Fecha colchetes (ch=93)
- _ Underline (ch=95)
- ` Aspas invertida (ch=96)
- { Abre chave (ch=123)
- } Fecha chave (ch=125)
- ” Caracters como Aspas duplas de citação (ch>=0)
- Preservados os pontos internos das palavras: www.gutenberg.org => www.gutenberg.org. O problema de separar palavras que possuem ponto interno é que siglas como U.S, se tornan US. Desse modo, encontra-se US que não existe no texto original. Tanto as palavras inseridas na estrutura, quanto as palavras das operações são normalizadas com as regras acima.
| Total de Palavras | Operações |
|---|---|
| 78.121 | 4 |
| Operação | VO | Tempo |
|---|---|---|
| 1 78121 | 0.0 | |
| 2 the | 4377 | 0.0 |
| 3 email | 2232 | 0.0 |
| 4 5000 | plainly | 0.0 |
| Total de Palavras | Operações |
|---|---|
| 7.558.560 | 8 |
| Operação | VO | Tempo |
|---|---|---|
| 1 560 | 0.0 | |
| 4 0 | - | 0.0 |
| 3 193.201.224.225 | 12 | 0.0 |
| 2 - | 224 | 0.0 |
| 1 7558000 | 23s | |
| 4 0 | - | 0.0 |
| 3 193.201.224.225 | 65376 | 0.0 |
| 2 - | 3023424 | 0.0 |