подчас требования к парсингу сайтов переходит все приделы и просто получить html код
бывает не достаточно.
итак
и т.д. и т.п.
понятно что идеальным выбором будет браузер
поэтому внимательно смотрим на phantomjs(http://phantomjs.org/) и его документацию на github
(https://github.com/ariya/phantomjs/wiki)
запихиваем бинарник (на ubuntu) в /bin даем нужные права
создаем js файл с инструкциями для phantomjs а дальше можно расстраивать архитектуру как хочешь например использовать очереди для передачи асинхронных задач phantomjs
бывает не достаточно.
итак
- нужно чтобы код можно было выполнять на удаленном сервере (варианты с плагинами для браузеров отпадают)
- получать и хранить куки
- необходимо выполнять js в полном объеме и получать DOM измененный js (речь идет о парсинге ajax сайтов)
- получать скриншоты страниц
и т.д. и т.п.
понятно что идеальным выбором будет браузер
поэтому внимательно смотрим на phantomjs(http://phantomjs.org/) и его документацию на github
(https://github.com/ariya/phantomjs/wiki)
запихиваем бинарник (на ubuntu) в /bin даем нужные права
создаем js файл с инструкциями для phantomjs а дальше можно расстраивать архитектуру как хочешь например использовать очереди для передачи асинхронных задач phantomjs