Чистка базы Allsubmitter от мусора
18.02.2010 | комментария 3Сегодня поговорим о том как правильно чистить базы каталогов для AllSubmitter’а от мусора…
Для начала, перед тем как заниматься каталогами, нужно все же изучить руководство Allsubmitter. Затем перво-наперво сделть проверку индексации. Из всего что есть отсеется не меньше половины сайтов, у которых в индексе менее 10 страниц.
Следом необходимо сделать “Определить названия сайтов” – сразу будет видно какие страницы отдают в тайтл ошибки либо пустоту (пустой титл – это либо несуществующая страница, либо add.html от ЛинкКлуб). Затем нужно провести проверку на ответ сервера (нам нужен ответ 200). Далее набором фильтров почистите оставшееся от форумов, досок, регистраций аккаунтов, коментариев к блогам. В сухом остатке, даже от самой большой базы выйдет 3-5 тысяч урлов.
Всё это хозяйство прогнать через “Определить формы добавления”, где то треть распознается. Создать с десяток эталонов по движкам, прогнать на основе эталонов “Распознать эталонные формы”. Определится ещё треть.
Не распознанным назначить в “Строку успешной регистрации” – “добавл|принят|отправл|спасибо|успешн|размещен|регистр|в каталог допускаются”, в “Строку повторной регистрации” – “уже” (сработает для 90-95% каталогов). Оставшиеся не распознанные пройти руками (их останется несколько сотен).
На всё – про всё уйдёт часов 4-6 и собственно через это время у вас будет своя собственная база…
Mark | 11.03.2010
Не соглашусь с автором по нескольким пунктам:
1. Если почистить сайты которые попали в “неудачные” по второму разу, то можно обнаружить много интересного:)
2. Не распознанным назначить в “Строку успешной регистрации” – “добавл|принят|отправл|спасибо|успешн|размещен|регистр|
Многие каталоги пишут ваш сайт не принят, не добавлен и.т.д. а таким методом он пойдет в успешные. Метод перебора хорошо подходит к строке повторной регистрации.
Макс | 12.03.2010
1) Не спорю, но не думаю что “мигающие” каталоги которые то доступны, то нет будут хорошо держаться в индексе. В крайнем случае, если уж на то пошло можно “удалять” в отдельную категорию и затем повторно проводить проверку.
2) Это верно. Но опять же если делать свою базу то хоть 1 разок думаю стоит пройти по ней на полуавтомате и поправить.
gild | 7.01.2011
лично я думаю что главное чтоб каталоги работали а потом уже по тиц сортировать.))