Задача: синхронизировать контент блога с сайтом, создать сплог.
Удалённо подключаюсь к серверу блога, получаю контент. Проблемы начались, когда я данный контент начал выводить. HTML код был битый. Нашёл два варианта решения используя библиотеки lxml, Beautiful Soup.
lxml
BeautifulSoup
Удалённо подключаюсь к серверу блога, получаю контент. Проблемы начались, когда я данный контент начал выводить. HTML код был битый. Нашёл два варианта решения используя библиотеки lxml, Beautiful Soup.
lxml
from lxml.html import fromstring, tostring print tostring(fromstring(html))
BeautifulSoup
from modules.BeautifulSoup import BeautifulSoup soup = BeautifulSoup(html) print soup.prettify()С первым вариантом у меня бли проблемы с кирилицей под Google App Engine, второй заработал.
Комментариев нет:
Отправить комментарий