Заморочки с парсингом rss-фида, формируемого НПЖ, при его трансляции в ЖЖ с помощью rss2lj
Замеченные проблемы
В ЖЖ попадает только одна новость за одну отработку скрипта, что сейчас происходит примерно раз в сутки. Если со времени последнего фида на ахе было несколько новостей, то в ЖЖ попадает только последняя.
Информация к размышлению
Для начала про RSS можно почитать
здесь
Более подробно:
RSS 1.0 Spec и
RSS 2.0 Spec
Проблема, возможно, в этом:
- Менее очевидный, но важный факт состоит в том, что в RSS 1.0 элементы item находятся вне элемента channel. В RSS 0.91 элементы item расположены внутри channel. В 0.90 они были снаружи. В 2.0 – они внутри. Во-как! Не запутайтесь с тем, в каком элементе надо искать новости.
- Наконец, вы заметите, что в элементе channel есть один элемент items. Он нужен только для RDF-парсеров (задает порядок новостей). Вы можете его игнорировать и считать, что все новости идут в том порядке, в каком расположены элементы item.
НПЖ формирует rss 2.0. Судя по другим фидам, варианты rss на основе rdf (rss 1.0) транслируются корректно.
Проверить корректность фида можно
здесь. – Just do it!TODO
Собственно, в какой-то момент журнал отказался обновляться вообще.
(10 марта, 1 ночи – пост на ахе от 8 марта около 15:00 в ЖЖ так и не появился).
Думаю, нужно вообще забить на сторонний сервис, и написать свой скриптец. Для этого нужно:
- Почитать про интерфейс
LJ Flat API (можно еще и про
интерфейс LiveInternet заодно) – а еще про Blogger API - Написать скрипт, который бы парсил rss как нужно
- Привязать его к crontab на NetAngels