Автосбор URL и заголовков страниц для SEO-оптимизации сайта

Разработал сегодня полуавтоматический процесс сбора ссылок и заголовков страниц сайта для его дальнейшей SEO-оптимизации. Изначально при постановке задачи был предложен ручной метод:

  1. Заходим на сайт в браузере;
  2. Копируем URL и заголовок H1 страницы;
  3. Копируем в таблицу;
  4. Оформляем внешний вид ячеек к таблице;
  5. Переходим по любой ссылке;
  6. Возвращаемся к пункту 2.

И так по всем видимым ссылкам сайта. Представив, сколько времени такой процесс может занять, я решил процесс автоматизировать.

Инструментарий

Для работы с текстовыми файлами всегда рекомендую использовать Notepad++. Быстрая удобная программа с подсветкой кода (при необходимости), которая не испортит содержимое текстового файла независимо от использованной кодировки.

Для сбора заголовков нашел интересную программу, которая умеет парсить заголовки от H1 до H5. Называется «Парсер тайтлов», написал её Дмитрий Борисов, выложив на своем сайте в открытом доступе. У программы есть большой минус — она не умеет самостоятельно обходить сайт по страницам и просит предоставить список ссылок, от которых нужно получить данные.

Так я вышел веб-сервис www.xml-sitemaps.com, который позволяет получить все видимые ссылки сайта.

Получаем данные

Вставляем в поле Starting URL адрес сайта, выставляем значение всех остальных полей в None и жмем Start.

xml-sitemaps-com-start

После завершения процесса обработки сайта ищем пункт Download Sitemap in Text Format и нажимаем на ссылку urllist.txt, чтобы скачать набор ссылок в текстовом виде.

xml-sitemaps-com-finish

Переходим в программу «Парсер тайтлов». Меню ФайлЗагрузить URL’ы из файла и выбираем скаченный файл urllist.txt. Список ссылок отобразится во вкладке URL’ы. Переключаемся на вкладку Настройки. Снимаем галочку Парсить title и ставим галочку Парсить заголовки H1. Жмем кнопку Начать парсинг.

После завершения процесса в меню Файл будет доступен пункт Сохранить в текстовый файл. Жмем на него, задаем имя файла, например, h1list.txt, нажимаем Сохранить. Теперь у нас есть два файла, в которых соответственно есть списки ссылок и заголовков страниц.

Форматируем данные

Для формирование списка страниц и дальнейшей оптимизации я использую LibreOffice Calc. Я копирую список заголовков и вставляю их в первый столбец листа. Далее мне нужен список ULR’ов без домена.

Для удаления домена из ссылки я использую Notepad++. Копируем в буфер название домена без завершающего слеша, в данном примере это будет http://prof-montage.spb.ru. Далее меню ПоискЗамена…, в поле Найти вставляем скопированный домен (Ctrl+V), а поле Заменить на оставляем пустым и нажимаем кнопку Заменить все. Полученный список ссылок без начального домена копируем (Ctrl+A, Ctrl+C) и вставляем во второй столбец листа таблицы.

libreoffice-calc-raw

У нас принято следующее оформление списка страниц для оптимизации:

  • сначала идет заголовок страницы;
  • на следующей строке расположена ссылка на страницу;
  • эти две ячейки и две из второго столбца выделяются фоновым цветом.

Для того, чтобы не преобразовывать в ручную полученные два столбца заголовок-URL к принятому формату, я написал небольшой макрос и повесил его на пункт контекстного меню по правому клику мыши. В итоге двумя нажатиями мыши по каждому заголовку я получаю вот такой формат:

libreoffice-calc-formatted

Теперь можно уже приступать к оптимизации. Для желающих публикую код макроса:

Заключение

Я понимаю, что полученный метод далек от идеала, но уже в данном виде позволяет экономить массу времени по сбору подготовительной информации для оптимизации.

В дальнейшем я планирую написать свой веб-сервис, который по заданному адресу сайта будет выдавать набор пар заголовок-URL в табличном виде с опциональным форматированием под принятый у нас стандарт.

+
Поделиться
Отправить
Звёзд: 1Звёзд: 2Звёзд: 3Звёзд: 4Звёзд: 5 (голосов: 1, средняя оценка: 5,00 из 5)
Загрузка...