Чистка базы Allsubmitter от мусора

Сегодня поговорим о том как правильно чистить базы каталогов для AllSubmitter’а от мусора…

Для начала, перед тем как заниматься каталогами, нужно все же изучить руководство Allsubmitter. Затем перво-наперво сделть проверку индексации. Из всего что есть отсеется не меньше половины сайтов, у которых в индексе менее 10 страниц.

Следом необходимо сделать «Определить названия сайтов» — сразу будет видно какие страницы отдают в тайтл ошибки либо пустоту (пустой титл — это либо несуществующая страница, либо add.html от ЛинкКлуб). Затем нужно провести проверку на ответ сервера (нам нужен ответ 200). Далее набором фильтров почистите оставшееся от форумов, досок, регистраций аккаунтов, коментариев к блогам. В сухом остатке, даже от самой большой базы выйдет 3-5 тысяч урлов.

Всё это хозяйство прогнать через «Определить формы добавления», где то треть распознается. Создать с десяток эталонов по движкам, прогнать на основе эталонов «Распознать эталонные формы». Определится ещё треть.

Не распознанным назначить в «Строку успешной регистрации» — «добавл|принят|отправл|спасибо|успешн|размещен|регистр|в каталог допускаются», в «Строку повторной регистрации» — «уже» (сработает для 90-95% каталогов). Оставшиеся не распознанные пройти руками (их останется несколько сотен).

На всё — про всё уйдёт часов 4-6 и собственно через это время у вас будет своя собственная база…

3 комментария

  1. Не соглашусь с автором по нескольким пунктам:
    1. Если почистить сайты которые попали в «неудачные» по второму разу, то можно обнаружить много интересного:)
    2. Не распознанным назначить в “Строку успешной регистрации” — “добавл|принят|отправл|спасибо|успешн|размещен|регистр|
    Многие каталоги пишут ваш сайт не принят, не добавлен и.т.д. а таким методом он пойдет в успешные. Метод перебора хорошо подходит к строке повторной регистрации.

  2. 1) Не спорю, но не думаю что «мигающие» каталоги которые то доступны, то нет будут хорошо держаться в индексе. В крайнем случае, если уж на то пошло можно «удалять» в отдельную категорию и затем повторно проводить проверку.
    2) Это верно. Но опять же если делать свою базу то хоть 1 разок думаю стоит пройти по ней на полуавтомате и поправить.

Оставить комментарий

Ваш электронный адрес не будет опубликован.


*


четыре × 1 =