вторник, 14 сентября 2010 г.

Парсеры

Программы для парсинга контента.

WebGrabber 1.5 nulled – граббер любых статей

image

Написан на PHP. Парсит контент с сайтов по списку урлов, по заданным фильтрам производит поиск страниц в пределах сайта с нужной информацией и сбор текста с них. Программа сама распознаёт полезный текст в html-документе, но вы можете явно задать шаблон, то есть между какими участками html-кода на странице находится нужная информация. Это позволяет настроить граббер для автоматизированного сбора любой информации с любых сайтов. Присутствует встроенный редактор для пост обработки напарсенного, в том числе и такая необходимая вещь, как синонимайзер текста. Требует крон для работы.(http://parsetools.pp.ru/?p=33)

Beta Parser – парсер групп Vkontakte.ru

Парсит сообщения из групп Контакта

image

Каждый пост парсер сохраняет в отдельный нумерованный файл. Также создаётся некоторое количество «лишних» файлов, в которые заключается ненужная служебная информация, выдранная с обрабатываемой страницы Вконтакте. Конечно, было бы не лишним добавить в данный софт функцию обработки полученных данных, но таковой, увы, в бете не предусмотрено.
В комплекте с парсером поставляется программа, осуществляющая автоматический постинг в форумы, но конкретно её работоспособность не проверялась.(http://parsetools.pp.ru/?p=44)