HTMLParse
En mi trabajo, me llego la oportunidad de moverle un poco a python, pero desgraciadamente tengo muy buenos compañeros programadores, que me lograron quedar mal con python.EL chiste era de cierta pagina web parsear el html, y sacar el contenido de la pagina. EL html era un codigo muy muy espaguetizado, nada entendible, yo diria que estaba echo con dreamwaver.
Pues bien la solución es utilizar el HTMLParse que trae por default python, pero creo que le hacen falta unos esteroides a este modulo. Por lo que encontre el modulo BeautifulSoup.
Este modulo esta bien chido, puedes pasarle un html, y el te va a pasear los componentes, tablas,divs, span, etc.
#!/usr/bin/python
from BeautifulSoup import BeautifulSoup
s = open('ficha.html').read()
p = BeautifulSoup(s)
divs = p.findall('div')
[print i.renderContent() for i in divs]
from BeautifulSoup import BeautifulSoup
s = open('ficha.html').read()
p = BeautifulSoup(s)
divs = p.findall('div')
[print i.renderContent() for i in divs]