Скрипт представляет собой универсальный паук-сборщик тематических статей. На практике процесс поиска статей при помощи скрипта сводится к заданию списка тематических кеев.  Скрипт многопоточный. Скрипт с поддержкой прокси. Встроенный автоматический многопоточный сбор прокси и встроенный многопоточный проксичекер.

Мой отчёт по тестированию скрипта парсинга текстовки для дорвеев:

Начал тестировать. Взял 1000 кеев (по вордстату от 100 до 159 запросов в мес)

Время мониторинга — Собрано Мб тектовки

20:20 — 7,9 Мб (просто раньше запустил)
20:23 — 9,8 Мб
20:24 — 10,7 Мб
20:25 — 11,6 Мб
20:29 — 13,2 Мб
20:36 — 18,4 Мб
20:40 — 21,3 Мб
20:44 — 25 Мб
20:49 — 29 Мб
итого за 29 минут мониторинга собрало 29-7,9=21,1 Мб текстовки в 34 файлах.
Итого обработано кеев — 34.

20:20 — 7,9 Мб (просто раньше запустил)
23:30 — 138,8 Мб (156 файлов (кеев))
итого за 3 часа мониторинга собрало 138,8 — 7,9=130,9 Мб текстовки в 156 файлах.

время когда он закончился не знаю, так как не проследил.

В итоге:
Спарсилась текстовка по всем 1000 кеям.
Объем спарсеной текстовки: 669,7 Мб (1000 файлов).

Запускал на xp в виртуалке.

Загрузка виртуалки: процессор 100%, память 210 Мб, сеть — 0,3 — 4 Мбит/с
Denwer3_Base_2010-03-18_a2.2.4_p5.3.1_m5.1.40_pma3.2.3 + Denwer3_PHP52_2010-03-18_php5.2.12_zendoptimizer
для работы нужен: php_curl, Zend Optimizer и iconv

Настройки парсинга:

количество потоков на парсинг гугла — 20
фильтровать прокси с ответом более 3х секунд
ждать ответа сайтов не более 5сиекунд при парсинге текста
парсить сайты в 30 потоков
чекать проксилисты на живость пока не найдет 1000 проксей нечеканных
остановить чекание проксей при коли-ве проксей в 200
чекать живость проксилистов в 35 потокв
чекать прокси в 30 потков
сохранять файлами
скрин файла настроект прилагается.

Кеи по которым запустил парсинг тектсовки:

работа в городе калининграде
работа в дзержинске для подростков
работа в дзержинске для школьников
работа в ленте в спб
работа в москве кровельщиком
работа в санкт петербурге резюме
работа в юридической фирме
вторая работа в москве
проектная работа в детском саду
работа в городе кургане
работа в колледжах москвы
работа в москве в столовой
вакансии работа в колпино колпинском
работа в астане для студентов
работа в городе спб
работа в интернет клубе
работа в петродворцовом районе
работа в свао г москвы
работа в спб мерчендайзером
работа в сыктывкаре на лето
работа в химках для школьников
работа в 14 лет в питере
работа в игровом клубе
работа в калуге бухгалтером
работа в нижегородском районе
работа в отелях турции
работа в салавате центр занятости
работа в санкт петербурге пушкин
и т .д

Пример спарсенной текстовки

http://uploading.com/files/c5d39327/asout.zip/
http://uploading.com/files/87c22e76/Art-Spider-asout.zip/

План но расширению возможностей:

— будет добавлена возможность парсинга текстовки на английском, французском, немецком, итальянском и испанском языках. Сейчас пока только парсит на русском.
— будет добавлена возможность парсинга с других поисковиков кроме гугла и аол: yandex + google + gogo + bing + yahoo (с возможностью указывать конкретно с какого парсит). Сейчас пока парсит только с гугла и аол.

Некоторые отзывы тестировавших скрипт:

Openixxx

участвовал в тестировании этого скрипта. подтверждаю — скрипт свою работу выполняет. статьи парсит. мусора действительно приносит немного. при работе с ним есть некоторые тонкости — если задать слишком НЧ кеи для парсинга или большой размер статьи, то может ничего и не найти.. оптимально у меня парсило по СЧ кеям статьи размером 1500 символов. работает не быстро — 130 статей парсило гдето минут 20-30.. опять же очень сильно зависит от кеев. но с другой стороны — по моему в этом деле скорость не главное))..

nittis

Вчера вечером также потестировал скрипт. Задал полтора десятка не самых популярных ключевиков (около 500 показов в месяц по статистике вордстат).  В итоге за 40 минут работы скрипта получил чуть больше 120 статей. Мусора не больше 5% (несколько раз парсилась индексная страница, и пару раз был получен просто список категорий с какого-то сайта). Статьи искал большие, по 2к символов, начиная с пятой страницы выдачи. По двухсловным запросам статьи полностью соответствуют искомому. С увеличением количество слов релевантность немного падает.

Heromant

Отлично работает софт… вчера долго промучался с денвером (не хотел вставать на впске :)) поэтому софт работал ночью без моего наблюдения (время не засек) но: закинул 23 ключа СЧ … честно скажу ключи достаточно сложные и руками собирать текст надоело бы… утром было напарсено 15мб текста потом прогнал весь текст софтом по чистке (требования при чистке были достаточно жесткие см. тут) в итоге получилось на выходе более 4мб чистого контента идеального для доров. :-)

stev

Отличный парсер! Особо порадовали скорость и результат. По итогу текст почистил от дублей и всё. Кстати, такой текст не только на дорвеи, но и на саты подойдёт, не говоря уже о сплогах, имхо.

Цена:

Это пока только анонс скрипта. Скрипт пока не продается. Предварительная стоимость сркипта составит $100. Если есть заинтересованные уже сейчас, прошу в аську (внизу страницы моя аська).

С выходом парсера Версии 3, будет продано n-е к-во лицензий по цене $25. Следим за анонсами

.

.

Фразы, по которым нас находят: art spider, текстовка для дорвеев, парсер текстовки, текстовка для доров, текстовка для дорвея, парсер текста для дорвеев, Art Spider v2 0, art spider v2 0 скачать, textparser скачать, парсим текст для дорвея, ePochta Web Spider, парсер КД, Парсер 2gis форум скачать, как почистить текст для дорвея, art spider v2 0 установка, дорвеи длина текстовки, дорвеи без текстовки, бесплатные парсеры ключей, запросы для парсинга каталогов
Заработок в Интернете на дорвеях

Название поста: Art-Spider. Парсер текстовки для дорвеев. ID поста: 3990

Ссылка на пост: http://moneyseo.info/?p=3990

Категория: Софт Метки: , , , ,