Для отслеживания в интернете новостей по какой-либо теме приходится переодически просматривать целый ряд различных тематических сайтов.
Хорошо, когда на сайте есть подписка на ленту RSS. Тогда мы просто подписываемся на обновление интересующей ленты и просматриваем её в любой "читалке" RSS. Читать RSS могут браузеры: Интернет Эксплорер, Опера; программы: Майкрософт Аутлук, Мазила Тандерберд и другие.
Но бывает так, что на сайте нет подписки RSS. Тогда на помощь прийдут средства, позволяющие конвертировать содержимое сайта в ленту RSS. Таких средств существует несколько. Я пользуюсь сайтом feed43.com.
Например, нам нужно получить RSS ленту новостей с сайта yeisk.info . Открываем главную страницу сайта feed43.com и нажимаем ссылку "Создать канал". Откроется страница с полем для адреса целевого сайта. Адрес страницы с новостями выглядит так: yeisk.info/all-news . Вставляем этот адрес в поле. Нажимаем кнопку "Обновить". После этого во фрейме появится исходный код страницы.
Важный момент: если в исходном коде вместо слов на кириллице – непонятные символы, значит нужно изменить кодировку в поле рядом с адресом страницы. Нужную кодировку можно найти в исходном коде, в самом верху.
Далее настраиваем поля извлечения данных со страницы. Для этого нужно в исходном коде найти блок с интересующими нас новостями. Можно воспользоваться поиском CTL-F, например, по названию новости. Блок с новостями может выглядеть примерно так:
<div class="news-block-title"> <a href="http://www.yeisk.info/all-news/society/35154-parusnik-so-studentami-iz-ejska-pribyl-v-polshu.html"> Парусник со студентами из Ейска прибыл в Польшу </a>
<div class="news-block-title"> <a href="http://www.yeisk.info/all-news/society/35148-v-blizhajshie-dni-v-ejske-vnov-projdut-otklyucheniya-elektroenergii.html"> В ближайшие дни в Ейске вновь пройдут отключения электроэнергии </a>
<div class="news-block-title"> <a href="http://www.yeisk.info/all-news/culture/35145-stat-uchastnikom-aktsii-bessmertnyj-polk-mozhet-kazhdyj-ejchanin.html"> Стать участником акции "Бессмертный полк" может каждый ейчанин </a>
Для настройки правил используем параметры.
{*} – воспринимается Feed43 как "что угодно"
{%} – воспринимается как блок, из которого строится лента, например заголовок или текст новости.
В поле "Глобальный шаблон поиска" указываем диапазон, в котором будет происходить поиск. Можно указать просто:
{%}
Тогда просматриваться будет вся страница.
А можно, например, задать область:
<body>{%}</body>
В этом случае поиск будет ограничен границами действия тега body.
В поле "Шаблон поиска новостей (повторяющийся)" для нашего случая соорудим такой шаблон:
<div class="news-block-title">{*}
href="{%}">{%}</a>{*}</div>
Нажмём кнопку "Извлечь" и увидим выбранные данные:
Остаётся только задать имя ленты и настроить её вид. Делается это в соответствующих полях с помощью порядковых номеров параметров.
Сохраням ссылку на ленту. В дальнейшем добавим эту ссылку в "читалку" RSS.