Сделал поэтапное описание процедуры создания мною доро-сателлита под партнерку СтимулПрофит с помощью доргена JakoDorgen и другого софта. Итак начнем.
Шаг 1.
Выбираю сайт жертву, с которой буду грабить контент. Для примера возьмем варезник relizeoff.ru. Анализирую сайт, для этого открываю посты на нем и смотрю структуру страниц. Берем, к примеру, relizeoff.ru/138557-korol-avenyu-king-of-the-avenue-2010-3gp.html, смотрим html код.
Из кода определяем какую часть конкретно будем парсить. Это часть в теге td
Шаг 2.
Далее я использую программу Content Downloader.
Первым делом собираю ссылки на статьи с сайта жертвы, что бы в последствии их спарсить.
Запускаю программу Content Downloader. Перехожу во вкладку ссылки.
Например, соберем все ссылки Категории сайта Мобилка | КПК (relizeoff.ru/mobil/), хотя можно и собрать все ссылки с сайта.
Смотрим, что в этом разделе 21 страница и ссылки имеют следующий вид relizeoff.ru/mobil/page/21/
Вписываю ссылку в поле Введите шаблон, вместо номера страницы вписываю {num}и указываю диапазон от 1 до 21 (так как у нас 21 страница) и нажимаю добавить ссылки — используя диапазон.
Далее нажимаю пуск парсинга ссылок (двойная зеленная кнопка типа плей в панеле). После окончания парсинга получаю список ссылок на статьи (посты).
Нажимаю кнопку фильтры и задаю шаблон допустим .html, что бы отфильтровать все другие ссылки. Нажимаю применить фильтр к списку (правая кнопка на списке). Также еще немного настраиваю фильтр, не отображать # и т. д. Удаляю дубликаты и просматриваю список еще вручную удаляя явно ссылки не на посты. В итоге получаю 582 ссылки. Итак ссылки для парсинга собраны.
Шаг 3.
Перехожу во вкладку контент парсера Content Downloader.
Далее нажимаю кнопку три точки в блоке Заголовок. Задаем границы начала и окончания парсинга заголовков. Нажимаем Готово.
Далее в блоке Общее нажимаю Задать границы парсинга
Ставим галочку Границы парсинга 1 и нажимаем напротив кнопку с троеточием.
Ищем начало нашего парсинга, как определили в Шаг 1.
В нас таких границ 2, так что выделяем нужную. Задаем начало и конец парсинга. Нажимаем Готово.
Нажимаем на ссылки и смотрим как будет выглядеть спарсенный нами материал. Если все ок начинаем парсинг. В парсере Content Downloader существует множество тонких настроек, 6но я все это упустил так как не хватит никакого поста на их описание )) это уже с опытом каждый научится сам.
Нажимаем кнопку парсинг — она в виде двух стрелочек зеленых ))
Шаг 4.
Итак, наши статьи спарсились. Лежат в указанной наим папке (.html файлы статей и картинки к ним в папке).
Далее делаем небольшую пост обработку спарсенных статей.
Для этого в Content Downloader нажимаем кнопку обработка и импорт (в виде двух документиков значек).
Нажимаем кнопку зеленый + и указываем путь к спарсенным нами статьям.
Нажимаем кнопку Добавить в выделенную группу. Тут тоже куча настроект важных, но я их все упускаю, как как они в данном примере не нужны.
Закрываем окно и выбираем вкладку Новости, выделяем любую. Статью.
Смотрим что нам бы вырезать первую часть и последнюю где ссылки. Для этого нажимаем кнопку Массовая обработка файлов и переходим во вкладку чистка документа.
Указываем границы что вырезать и нажимаем вырезать.
Далее вырезаем куски с ссылками на реальные файлы. Вкладка Чистка документа 2. Вырезать от конца документа.
Потом удаляем служебные теги
Далее, смотрю, я забыл настроить как сохранять картинки и они сохранились с полными путями, делаем авто замену на относительные или на прямые согласно домена на котором будет ваш будущий сателлит. Допустим я этот хочу залить на домен: single-from.co.cc
По этому делаю авто замену ссылок картинок. Вкладка Преобразование документа — Замена символов.
Еще проставим тег краткого содержания поста, это во вкладке Автопростановка тегов.
Кажись все. Обрабатывать также можно еще, смотря какая у вас задача в Content Downloader для этого множество инструментов есть.
Далее нажимаем кнопку сохранить все — две дискетки.
Все, наши посты готовы для создания доро-сателлита на доргене JakoDorgen PRO.
Шаг 5.
Переходим к JakoDorgen PRO.
Я копирую сами файлы с постами в отдельную папку, а то если в папке есть подпапки (в данном случае папка с картинками) джако кажись выдает ошибку.
Создаю новый Профиль.
Указываю Режим: Сателлит
Настройки для режимов — Формат загружаемых статей: Простой (первая строка — ключевик, потом статья, категория опционально)
Ставлю галочку: Делать комментарии к сателлитным статьям
Так как категория опционально, то вписываю свои желаемые категории.
Настраиваю проект, указываю путь к статьям (которые скопировал отдельно без папки с картинками).
Далее заливаем созданный дор на сайт.
И отдельно заливаем папку с картинками.
Все доро-сателлит готов.
Шаг 6.
Смотрим что получилось: single-from.co.cc
.
Скачать файлы настроек Content Downloader и JakoDorgen PRO, которые были использованы в данном посте, можно у меня в Google Документы, имя файла: Как сделать сателлит на JakoDorgen PRO. Если нет доступа, см. тут как получить.
Замеченные недостатки: заметил, что если в названии статей есть кавычки, то моя кнопка скачать на java не воспринимает их. Решение переделать кнопу или в шаге пост обработке удалить кавычки из первой строки каждого файла.
Недостаток 2: Еще не дописал на java функции парсинга поста и определения реального размера скачиваемого архива, это стоит в плане.
Недостаток 3: когда вырезал теги, где-то попался незакрытый ил лишний тег div, по этому в некоторых категория правая боковая панель съехала в низ под центральную панель (
P.S.
Если у Вас нет JakoDorgen PRO, то купить его можно тут
Если у Вас нет Content Downloader, то купить его можно тут
Если Вы еще не работаете со СтимулПрофит, то регистрация тут
.
Вот не поверю, что все эти дорвеи и сателлиты — для вас. С такой тщательностью и правильностью, как написана эта статья, вам надо делать СДЛ. Инструкция понравилась — буду захаживать.
щас подумал,
а смысл от таких сателлитов, это тот же копипаст, ключей здесь нет (выходить «в свет» особо несчем), такие новости один в один на сотнях варезов висят, думаю сэкономить себе нервы поможет какой то нормальный rss граббер для dle… с тем отличием конечно что придется ставить движок и подключать БД)
эффекта полной и краткой новости вы добились с помощью тега «more» ?
в режиме сателлитов да
ну а если картинок исходных несколько тысяч? мне как их потом выколупывать для дора? линки-то на картинки рандомом проставятся… прийдется все картинки неглядя скопировать в каждый дор, что утежеляет дор, ну и куча ненужных картинок получается…
Уважаемый MoneySeo! Может не в тему поста малость, но вот какой вопрос: пытаюсь вывести в доре на каждой странице 6 рандомных картинок с помощью макроса [IMG_URL], но Jako упорно все шесть картинок выводит одинаковые… Как это обойти? Ведь это же так очевидно, нужны шесть разных картинок, рандомно… И такой опус…
Прошу ответить!!!
макрос IMG_URL выводит только одну картинку и все. по другому он не умеет
выводите макросом рандомной вставки ссылок на картинки из txt файла
Когда-то попадался мне плагин к ФФ. Так вот он делал все тоже самое, только быстрее, не надо было использовать кучу настроек. Понравился сайт — кнопку нажал и он уже у тебя в нужной папке, что хочешь с ним то и делаешь
Чем так долго воровать одну статью, лучше самому придумать и напечатать ее. Так будет намного быстрее и законнее
фотография вначале хорошая, а за статью отдельное спасибо!
Первые два комментатора глаголят истину :)
Moneyseo, а где ты нашел красную кнопку в панеле для парсинга ссылок, может ты имел ввиду сканер сайта?
наверное ошибся. ну я имел ввиду кнопку начать парсинг, ту же что парсить статьи. двойной зеленый плей.