среда, 31 июля 2013 г.

совершенный парсинг сайтов

подчас требования к парсингу сайтов переходит все приделы и просто получить html код
бывает не достаточно.
итак

  1. нужно чтобы код можно было выполнять на удаленном сервере (варианты с плагинами для браузеров отпадают)
  2. получать и хранить куки 
  3. необходимо выполнять js в полном объеме и получать DOM измененный js (речь идет о парсинге ajax сайтов)
  4. получать скриншоты страниц

и т.д. и т.п.
понятно что идеальным выбором будет браузер
поэтому внимательно смотрим на phantomjs(http://phantomjs.org/) и его документацию на github
(https://github.com/ariya/phantomjs/wiki)

запихиваем бинарник (на ubuntu) в /bin даем нужные права
создаем js файл с инструкциями для phantomjs а дальше можно расстраивать архитектуру как хочешь например использовать очереди для передачи асинхронных задач phantomjs


Комментариев нет:

Отправить комментарий

PHP: The Right Way блог програмышки
Яндекс.Метрика