Блог сельского программиста: совершенный парсинг сайтов

среда, 31 июля 2013 г.

совершенный парсинг сайтов

подчас требования к парсингу сайтов переходит все приделы и просто получить html код
бывает не достаточно.
итак

нужно чтобы код можно было выполнять на удаленном сервере (варианты с плагинами для браузеров отпадают)
получать и хранить куки
необходимо выполнять js в полном объеме и получать DOM измененный js (речь идет о парсинге ajax сайтов)
получать скриншоты страниц

и т.д. и т.п.
понятно что идеальным выбором будет браузер
поэтому внимательно смотрим на phantomjs(http://phantomjs.org/) и его документацию на github
(https://github.com/ariya/phantomjs/wiki)

запихиваем бинарник (на ubuntu) в /bin даем нужные права
создаем js файл с инструкциями для phantomjs а дальше можно расстраивать архитектуру как хочешь например использовать очереди для передачи асинхронных задач phantomjs