Skip to content

Commit 306e3cc

Browse files
committed
new article about nokogiri and open-uri issues with utf-8
1 parent 36d9bbe commit 306e3cc

File tree

2 files changed

+32
-0
lines changed

2 files changed

+32
-0
lines changed
Lines changed: 22 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,22 @@
1+
---
2+
title: Codifica utf-8 con Nokogiri e open-uri
3+
date: 20/05/2011
4+
5+
**TL;DR**
6+
**Il parser html di Nokogiri e open-uri danno problemi con l'encoding. Passare direttamente l'html.**
7+
8+
Stavo creando un parser che scaricasse tutti i post di un blog ospitato su *myblog di virgilio* (una rara merda) con [Nokogiri](http://nokogiri.org) per trasferirlo su piattaforma *Wordpress*.
9+
Con un paio di hack strutturali all'html sono riuscito a tirare giù tutte le informazioni di cui avevo bisogno, ma sembrava non ci fosse modo di fargli capire la codifica.
10+
Molto stranamente, visto che il blog era già in utf-8 e a quanto pare Nokogiri usa utf-8 di default.
11+
Quando ormai stavo per mollare il colpo ho trovato la soluzione per puro caso. Ecco com'era il mio codice:
12+
:::ruby
13+
doc = Nokogiri::HTML(open('http://***.myblog.it/'))
14+
#resto del codice
15+
16+
Mi è bastato trasformare questa riga in:
17+
:::ruby
18+
html = open('http://***.myblog.it/')
19+
doc = Nokogiri::HTML(html.read)
20+
#resto del codice
21+
E magicamente tutto ha funzionato come dovuto.
22+
A quanto pare si tratta di un **problema dovuto alla combo Nokogiri e open-uri** e per ovviare il problema basta passare direttamente la stringa contente l'html.

public/sitemap.xml

Lines changed: 10 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -11,6 +11,16 @@
1111
<changefreq>daily</changefreq>
1212
<priority>1.00</priority>
1313
</url>
14+
<url>
15+
<loc>http://codeitterron.heroku.com/2011/05/20/codifica-utf-8-con-nokogiri-e-open-uri/</loc>
16+
<changefreq>monthly</changefreq>
17+
<priority>0.80</priority>
18+
</url>
19+
<url>
20+
<loc>http://codeitterron.heroku.com/2011/05/11/ricerca-semplificata-per-siti-statici/</loc>
21+
<changefreq>monthly</changefreq>
22+
<priority>0.80</priority>
23+
</url>
1424
<url>
1525
<loc>http://codeitterron.heroku.com/2011/05/05/caratteri-speciali-negli-url/</loc>
1626
<changefreq>monthly</changefreq>

0 commit comments

Comments
 (0)