PHP-скрипт Получение URL всех страниц сайта

Тема в разделе "PHP", создана пользователем krobol, 30 авг 2009.

  1. krobol

    krobol Member

    Регистр.:
    30 июн 2009
    Сообщения:
    263
    Симпатии:
    1
    Дайте, пожалуйста, простенький скрипт:
    на входе: главная страница сайта (http://mysite.ru/)
    на выходе: список всех страниц сайта

    Остальное доработаю сам. Но вообще нужно на выходе:
    URL_страницы|title страницы
     
  2. zerg

    zerg Administrator Команда форума

    Регистр.:
    18 июл 2008
    Сообщения:
    4.254
    Симпатии:
    3
    возьми скрипт генерации карты сайта
     
  3. krobol

    krobol Member

    Регистр.:
    30 июн 2009
    Сообщения:
    263
    Симпатии:
    1
    нашёл такой скрипт - Site Index:

    The script will spider website and extract all anchor links and webpage titles. All extracted URLs are divided into 4 categories: internal and external webpages, internal and external downloadable files.
    -------
    Скрипт паучит сайт и извлекает все ссылки и титлы страниц. Все добытые URL, делятся на 4 категории: внутренние и внешние ссылки, внутренние и внешние загружаемые файлы.

    [HIDE="1"]http://www.php-development.ru/abandonware.php[/HIDE]

    скачать здесь: [HIDE="1"]http://www.php-development.ru/abandonware/site-index.zip[/HIDE]

    правда он далеко не углубляется (УВ1 и УВ2), но этого достаточно. На УВ3 думаю нет смысла расставлять ссылки и добавлять в аддурилки.
     
    Последнее редактирование: 30 авг 2009
  4. zerg

    zerg Administrator Команда форума

    Регистр.:
    18 июл 2008
    Сообщения:
    4.254
    Симпатии:
    3
    если для покупки ссылок, лучше парсить с яндекс хмл там же страници по релевантности сортирует, легче будет продвинуть.

    уровень 2 -это ссылки с главной можно спарсить 1 регуляркой

    PHP:
    preg_match_all("/(http:\\/\\/)?([a-z_0-9-.]+\\.[a-z]{2,3}(([ \"'>\r\n\t])|(\\/([^ \"'>\r\n\t]*)?)))/",$buf,$url);
    только хост указать нужно, а то все сграбит
     
  5. krobol

    krobol Member

    Регистр.:
    30 июн 2009
    Сообщения:
    263
    Симпатии:
    1
    можно ещё раз. только языком попроще, а то ничего не понял :shok:


    и ещё, я хотел список урл и титл для постинга в закладки и аддурл, чтобы побыстрее всё проиндексировалось.

    Но в дальнейшем понадобиться и для увеличения пузомерок.
     
  6. zerg

    zerg Administrator Команда форума

    Регистр.:
    18 июл 2008
    Сообщения:
    4.254
    Симпатии:
    3
    яндекс сортирует по релевантности, если не углублятся, тоесть станица выше, чем-то лучше нижней, поэтому продвигать такие страници будет легче.

    пример веб программирование

    forumseo.org/forumdisplay.php?f=103 эту страницу легче продвинуть по запросу веб программирование
     
  7. maximus

    maximus Member

    Регистр.:
    23 апр 2009
    Сообщения:
    252
    Симпатии:
    0
    знаю, некоторые сеошники при составлении карты сайта это тоже учитывают, более релевантные страницы выводят на первый план
     
  8. krobol

    krobol Member

    Регистр.:
    30 июн 2009
    Сообщения:
    263
    Симпатии:
    1
    парсить с яндекс хмл можно будет когда странице уже в индексе.
    а пока нужно их загнать программой в аддурилки и закладки.

    В вордпрессе есть плагин составления XML карты сайта.
    Как из этого XML вытащить URLы и TITLEы?
    Может есть уже что-то готовое?

    Или придётся самому писать - считать файл в массив, построчно регуляркой вытащить урл и титл, выдать результат?
     
  9. zerg

    zerg Administrator Команда форума

    Регистр.:
    18 июл 2008
    Сообщения:
    4.254
    Симпатии:
    3
    а что тебе мешает просто сделать запрос к базе и получить титлы и идишники, так же будет намного быстрее чем парсить.


    PHP:
    $str'<a href="http://forumseo12.ru/showthread.php?goto=newpost&t=78">sdfsfds</a>';
    $find=preg_match_all("/<a\s+href\s*=\s*[\"']*(http:\/\/.*)\s*[^>]*>(.[^<]*)<[\/a]+>/i"$str$url);
    print_r($url);
    парсит урл и анкор, можно сразу в массив загнать чтоб все спарсило без записи в файл, думаю сильно грузить не бдет
     
  10. krobol

    krobol Member

    Регистр.:
    30 июн 2009
    Сообщения:
    263
    Симпатии:
    1
    как сделать запрос к базе? стоит ЧПУ.


    к чему применять эту регулярку?
    где взять ссылки в таком виде: '<a href="http://forumseo12.ru/showthread.php?goto=newpost&t=78">sdfsfds</a>' ?
     
  11. zerg

    zerg Administrator Команда форума

    Регистр.:
    18 июл 2008
    Сообщения:
    4.254
    Симпатии:
    3
    PHP:
    SELECT post_title,guid FROM `wp_postsLIMIT 0,99999
    а регулярка тыже хотел парсить
     
  12. moneydigger

    moneydigger New Member

    Регистр.:
    26 авг 2009
    Сообщения:
    163
    Симпатии:
    0
    Большое спасибо пригодилось для своих темных целей
     
  13. GUNSTE

    GUNSTE New Member

    Регистр.:
    9 июл 2011
    Сообщения:
    1
    Симпатии:
    0
    Ответ: PHP-скрипт Получение URL всех страниц сайта

    Сейчас попробую!
     
  14. keeper555

    keeper555 New Member

    Регистр.:
    15 сен 2011
    Сообщения:
    1
    Симпатии:
    0
    Ответ: PHP-скрипт Получение URL всех страниц сайта

    Сообщение для закачки
     
  15. MyxPyM

    MyxPyM New Member

    Регистр.:
    27 июл 2011
    Сообщения:
    55
    Симпатии:
    0
    Ответ: PHP-скрипт Получение URL всех страниц сайта

    Спасибо большое, скрипт пригодиться для проектов Хрумера и прогонов по соц закладкам
     
  16. Grizzly

    Grizzly New Member

    Регистр.:
    3 дек 2011
    Сообщения:
    1
    Симпатии:
    0
    Ответ: PHP-скрипт Получение URL всех страниц сайта

    Спасибо всем за скриптики
     
  17. zael

    zael New Member

    Регистр.:
    17 дек 2011
    Сообщения:
    1
    Симпатии:
    0
    Ответ: PHP-скрипт Получение URL всех страниц сайта

    Хороший скрипт, я как раз парсер пишу
     
  18. alexxnbs

    alexxnbs New Member

    Регистр.:
    28 янв 2012
    Сообщения:
    1
    Симпатии:
    0
    Ответ: PHP-скрипт Получение URL всех страниц сайта

    Спасибо за скрипты
     
  19. itMy

    itMy New Member

    Регистр.:
    29 янв 2012
    Сообщения:
    3
    Симпатии:
    0
    Ответ: PHP-скрипт Получение URL всех страниц сайта

    Кстати, написал простенький скрипт парсера под wordpress. Необходимо только регулярные выражения менять под нужный сайт.
    Кому нужно - обращайтесь, поделюсь.
     
  20. Cybernetic2045

    Cybernetic2045 New Member

    Регистр.:
    7 сен 2012
    Сообщения:
    2
    Симпатии:
    0
    Ответ: PHP-скрипт Получение URL всех страниц сайта

    Спасибо за скриптик у меня как раз была такая задача узнавать список всех ссылок сайта)))
     

Поделиться этой страницей