Как выдрать текст для базы с нужного сайта

Допустим, есть сайт по нужной нам тематике на 1000 страничек. Нужно сдереть с него всю инфу.

Делаем вот что: с помощью телепорта качаем весь сайт себе в одну папочку. С помощью скрипта, который ниже, мы обрабатываем эту папочку. Прописываете папочку на сервере, где лежат нужные нам странички с инфой. И запускаете скрипт.

После этого он аккуратненько пройдется по страничкам и выдерет оттуда всю инфу без всякого там хтмл-форматирования. И положит ее в файлик.

Код скрипта, который дёргает инфу:

$dir=»dir»;
$indexfile=»data.txt»;

function text_2_base($url, &$baza)
{
$fd = fopen (‘http://phpdirtobase/dir/’.$url, «r»);
while (!feof($fd))
{
$htmltotext = fgetss($fd, 1000);
fwrite($baza, $htmltotext);
}
fclose ($fd);
}

$fp = fopen($indexfile, «w+»);

if (is_dir($dir)) {
if ($dh = opendir($dir)) {
$i = -2;
while ((($file = readdir($dh)) !== false))
{$i++;
if ( $file != «.» && $file != «..»)
{
echo $i.’ obrabotan : ‘.$file. ‘
‘;
text_2_base($file, $fp);
}
}
closedir($dh);
}
}

fclose($fp);

Все. Инфа по тематике дора у нас есть.

Есть конечно некоторые проблемы — не все хтмл форматирование убивается. Но ничего, можно и ручками немножко поработать :) Совсем немножко.

h++p://doorwaycreation.jino-net.ru/info/kak-zagnat-vsyu-infu-s-nuzhnogo-sayta-sebe-v-bazu

Оставьте первый комментарий

Оставить комментарий

Ваш электронный адрес не будет опубликован.


*


17 − четырнадцать =