Скрипт представляет собой универсальный паук-сборщик тематических статей. На практике процесс поиска статей при помощи скрипта сводится к заданию списка тематических кеев.  Скрипт многопоточный. Скрипт с поддержкой прокси. Встроенный автоматический многопоточный сбор прокси и встроенный многопоточный проксичекер.

Мой отчёт по тестированию скрипта парсинга текстовки для дорвеев:

Начал тестировать. Взял 1000 кеев (по вордстату от 100 до 159 запросов в мес)

Время мониторинга — Собрано Мб тектовки

20:20 — 7,9 Мб (просто раньше запустил)
20:23 — 9,8 Мб
20:24 — 10,7 Мб
20:25 — 11,6 Мб
20:29 — 13,2 Мб
20:36 — 18,4 Мб
20:40 — 21,3 Мб
20:44 — 25 Мб
20:49 — 29 Мб
итого за 29 минут мониторинга собрало 29-7,9=21,1 Мб текстовки в 34 файлах.
Итого обработано кеев — 34.

20:20 — 7,9 Мб (просто раньше запустил)
23:30 — 138,8 Мб (156 файлов (кеев))
итого за 3 часа мониторинга собрало 138,8 — 7,9=130,9 Мб текстовки в 156 файлах.

время когда он закончился не знаю, так как не проследил.

В итоге:
Спарсилась текстовка по всем 1000 кеям.
Объем спарсеной текстовки: 669,7 Мб (1000 файлов).

Запускал на xp в виртуалке.

Загрузка виртуалки: процессор 100%, память 210 Мб, сеть — 0,3 — 4 Мбит/с
Denwer3_Base_2010-03-18_a2.2.4_p5.3.1_m5.1.40_pma3.2.3 + Denwer3_PHP52_2010-03-18_php5.2.12_zendoptimizer
для работы нужен: php_curl, Zend Optimizer и iconv

Настройки парсинга:

количество потоков на парсинг гугла — 20
фильтровать прокси с ответом более 3х секунд
ждать ответа сайтов не более 5сиекунд при парсинге текста
парсить сайты в 30 потоков
чекать проксилисты на живость пока не найдет 1000 проксей нечеканных
остановить чекание проксей при коли-ве проксей в 200
чекать живость проксилистов в 35 потокв
чекать прокси в 30 потков
сохранять файлами
скрин файла настроект прилагается.

Кеи по которым запустил парсинг тектсовки:

работа в городе калининграде
работа в дзержинске для подростков
работа в дзержинске для школьников
работа в ленте в спб
работа в москве кровельщиком
работа в санкт петербурге резюме
работа в юридической фирме
вторая работа в москве
проектная работа в детском саду
работа в городе кургане
работа в колледжах москвы
работа в москве в столовой
вакансии работа в колпино колпинском
работа в астане для студентов
работа в городе спб
работа в интернет клубе
работа в петродворцовом районе
работа в свао г москвы
работа в спб мерчендайзером
работа в сыктывкаре на лето
работа в химках для школьников
работа в 14 лет в питере
работа в игровом клубе
работа в калуге бухгалтером
работа в нижегородском районе
работа в отелях турции
работа в салавате центр занятости
работа в санкт петербурге пушкин
и т .д

Пример спарсенной текстовки

http://uploading.com/files/c5d39327/asout.zip/
http://uploading.com/files/87c22e76/Art-Spider-asout.zip/

План но расширению возможностей:

— будет добавлена возможность парсинга текстовки на английском, французском, немецком, итальянском и испанском языках. Сейчас пока только парсит на русском.
— будет добавлена возможность парсинга с других поисковиков кроме гугла и аол: yandex + google + gogo + bing + yahoo (с возможностью указывать конкретно с какого парсит). Сейчас пока парсит только с гугла и аол.

Некоторые отзывы тестировавших скрипт:

Openixxx

участвовал в тестировании этого скрипта. подтверждаю — скрипт свою работу выполняет. статьи парсит. мусора действительно приносит немного. при работе с ним есть некоторые тонкости — если задать слишком НЧ кеи для парсинга или большой размер статьи, то может ничего и не найти.. оптимально у меня парсило по СЧ кеям статьи размером 1500 символов. работает не быстро — 130 статей парсило гдето минут 20-30.. опять же очень сильно зависит от кеев. но с другой стороны — по моему в этом деле скорость не главное))..

nittis

Вчера вечером также потестировал скрипт. Задал полтора десятка не самых популярных ключевиков (около 500 показов в месяц по статистике вордстат).  В итоге за 40 минут работы скрипта получил чуть больше 120 статей. Мусора не больше 5% (несколько раз парсилась индексная страница, и пару раз был получен просто список категорий с какого-то сайта). Статьи искал большие, по 2к символов, начиная с пятой страницы выдачи. По двухсловным запросам статьи полностью соответствуют искомому. С увеличением количество слов релевантность немного падает.

Heromant

Отлично работает софт… вчера долго промучался с денвером (не хотел вставать на впске :)) поэтому софт работал ночью без моего наблюдения (время не засек) но: закинул 23 ключа СЧ … честно скажу ключи достаточно сложные и руками собирать текст надоело бы… утром было напарсено 15мб текста потом прогнал весь текст софтом по чистке (требования при чистке были достаточно жесткие см. тут) в итоге получилось на выходе более 4мб чистого контента идеального для доров. :-)

stev

Отличный парсер! Особо порадовали скорость и результат. По итогу текст почистил от дублей и всё. Кстати, такой текст не только на дорвеи, но и на саты подойдёт, не говоря уже о сплогах, имхо.

Цена:

Это пока только анонс скрипта. Скрипт пока не продается. Предварительная стоимость сркипта составит $100. Если есть заинтересованные уже сейчас, прошу в аську (внизу страницы моя аська).

С выходом парсера Версии 3, будет продано n-е к-во лицензий по цене $25. Следим за анонсами

.

.

Фразы, по которым нас находят: art spider, текстовка для дорвеев, парсер текстовки, текстовка для доров, текстовка для дорвея, парсер текста для дорвеев, textparser скачать, запросы для парсинга каталогов, Парсер 2gis форум скачать, дорвеи без текстовки, парсер текстовиков для дорвеев, ePochta Web Spider
Заработок в Интернете на дорвеях

Название поста: Art-Spider. Парсер текстовки для дорвеев. ID поста: 3990

Ссылка на пост: http://moneyseo.info/?p=3990

Категория: Софт Метки: , , , ,