Грабберы, парсеры и генераторы
Ответы на частые вопросы
Что такое граббер и что такое парсер ? В чем их отличие?
В терминалогии веб-разработок граббер - это специализированный скрипт, который позволяет "выкачивать" информацию с чужих сайтов на свой. В отличии от грабберов, парсер способен распознать информацию в груде "мусора" и обработать ее в соотвествии с поставленной задачей. Сегодня оба понятия часто используются как синонимы.
Зачем нужны грабберы и парсеры?
1. Для поддержания актуальности информации.
К примеру, пользователям Вашего сайта очень важно знать текущий курс валют. Изменять курс в ручную обычно не удобно, так как требует ежедневного внимания к веб-ресурсу. А что делать если информация меняется слишком быстро и не равномерно. Если для Вас важно, чтоб на сайте всегда находилась самая актуальная информация и при этом чтобы Вам не приходилось самому постоянно ее обновлять, то наилучшим решением будет использовать скрипт граббера или php парсер.
2. Для автоматического обновления страниц.
Сайт, информация на котором редко обновляется обычно редко посещается. Пользователю уже побывавшему на Вашем сайте становится просто не интересно. Такие сайты называют "мертвыми". Но что делать если Вам не хватает времени обновлять информацию на сайте? Использовать автоматическое добавление новостей, новых статей по тематике сайта и прочей информации с других ресурсов схожей тематики с помощью специализированных скриптов - парсера новостей или граббера контента сайтов.
3. Моментальное наполнение сайта полезной информацией.
Все ресурсы сети когда то начинались "с нуля". Однако если Ваш ресурс направлен на предоставление информации (каталог ссылок, архив рефератов, база текстов или аккордов песен), то заполнять сайт с нуля в ручную - процесс долгий и трудоемкий. Интересен пользователям Ваш сайт станет только тогда, когда размер информационной базы на Вашем сайте перевалит за определенное количество. Парсеры и грабберы (например граббер ссылок) - отличное решения задач подобного рода. Их использование позволит Вам быстро догнать конкурентов и значительно расширить свой каталог информации.
4. Интегрирование (объединение, централизация) информации.
В сети Интернет огромное количество страниц с важной для пользователя информацией, главным недостатком которой является ее разрозненность. Используя скрипты грабберов контента сайтов, можно объединить всю полезную информацию, разместив ее на одной странице. Согласитесь, очень удобно, когда вся информация с разных сайтов объединена в один. К примеру новости: пользователь с большим энтузиазмом зайдет на сайт, где сможет в одном месте прочитать все новости со всех новостных сайтов, чем станет открывать каждый из них. При подобном использовании грабберов и парсингов авторы подобных сайтов обычно и не скрывают первоисточник информации. Их цель - удобство пользователя, а значит и большая посещаемость собственного ресурса.
Виды парсеров
1. Парсер XML
XML (eXtensible Markup Language) - это свод общих синтаксических правил для хранения структурированных данных, обмена информацией между программами и передачи структурированных данных по сети.
Парсер xml нужен для преобразования данных, полученных из одной программы в форму представления данных другой программы.
Например: Сайт предлагает всем желающим разместить у себя на сайте информер погоды.
Если ресурс не предоставляет данных для других сайтов, а Вам крайне важно иметь эту информацию на своем сайте - воспользуйтесь грабберами.
Если существующие формы информеров не вписываются в концепцию Вашего сайта, то можно воспользоваться xml-парсером и представить
эту же информацию в том виде, в котором она наиболее гармонично впишется в дизайн.
2. Парсер RSS
RSS — семейство XML-форматов. RSS позволяет предоставлять информацию ресурса в виде, удобном для так называемых агрегаторов. Агрегатор - это специальная программа, обрабатывающая и объединяющая RSS-ленты в удобный для пользователя вид. Чаще всего RSS используется для постоянно добавляемой информации, например для анонсов новостей или статей.
3. Парсер EXCEL-документов
MS Excel - это программа работы с электронными таблицами, созданная корпорацией Microsoft. Excel является наиболее популярным форматов представления табличных данных для пользователей OC Windows.
Этот вид документов часто используют для представления прайс-листов и других табличных данных. Парсер excel позволяет конвертировать файлы excel в вашу базу данных для дальнейшей работы.
Что представляет из себя конвертор?
Конвертор - это программа, содержащая в себе граббер или парсер для получения информации с исходного файла и/или сайта и генератор документа нужного формата. Конверторы позволяют преобразовывать данные из одного формата в другой.
Например: У вас есть прайс-лист в формате excel и электронный магазин на движке ShopScript. Конвертор преобразует данные excel в базу данных вашего магазина.
Примеры направлений конвертирования
1. Excel в MySQL
Преобразование табличных данных MS Excel в базу данных MySQL. Преобразование данных с MySQL базы в excel
2. HTML в MySQL
Преобразование данных с html страниц в базу данных MySQL
3. HTML в PDF
Преобразование данных с html страниц в PDF-документ
4. MySQL в RSS/XML
Создание RSS/XML из данных БД MySQL
Зачем нужны генераторы документов?
Если в вашей работе используется большое количество бланков и документов, то генераторы документов способны существенно упростить вам жизнь.
Генераторы документов позволяют автоматизировать создание документов и заполнение бланков.
Примеры:
1. Генератор PDF
PDF (Portable Document Format) - это кроссплатформенный формат электронных документов.
Формат PDF усложняет внесение ручных изменений в готовый экземпляр договора, что в некоторых случаях является просто незаменимым преимуществом по сравнению с другими форматами.
2. Генератор документов MS Word
WORD - это текстовый процессор, выпускаемый корпорацией Microsoft в составе пакета Microsoft Office.
Документы Word это наболее понятный для пользователя формат представления текстовой информации.
3. Генератор документов MS EXCEL
MS Excel - это программа работы с электронными таблицами, созданная корпорацией Microsoft. Excel является наиболее популярным форматов представления табличных данных для пользователей OC Windows.
4. Генератор XML/RSS
XML (eXtensible Markup Language) - это свод общих синтаксических правил для хранения структурированных данных,
обмена информацией между программами и передачи структурированных данных по сети.
RSS — семейство XML-форматов. RSS позволяет предоставлять информацию ресурса в виде, удобном для так называемых агрегаторов. Агрегатор - это специальная программа, обрабатывающая и объединяющая RSS-ленты в удобный для пользователя вид. Чаще всего RSS используется для постоянно добавляемой информации, например для анонсов новостей или статей.
Генераторы документов позволяют создавать XML-документы любого уровня сложности.