Парсинг (web scraping) – це автоматизований збір відкритої інформації в інтернеті за заданими умовами. Парсити можна дані з сайтів, пошукової видачі, форумів та соціальних мереж, порталів та агрегаторів. У цій статті розуміємо парсери сайтів.
Часто потрібно отримати та проаналізувати великий масив технічної та комерційної інформації, розміщеної на своїх проектах чи сайтах конкурентів. Для збору таких даних незамінні парсери - програми або сервіси, які «витягують» потрібну інформацію та представляють її у структурованому вигляді.
Парсинг – це законно?
Збір відкритої інформації в Інтернеті не заборонено законодавством РФ. Більше того, у п.4 статті 29 Конституції закріплено «право вільно шукати, отримувати, передавати, виробляти та поширювати інформацію будь-яким законним способом». Парсинг даних часто порівнюють із фотографуванням цінників у магазинах: якщо інформація є у відкритому доступі, не захищена авторським правом чи іншими обмеженнями, отже, її можна копіювати та розповсюджувати.
Щодо даних в інтернеті це означає, що законним є збір відомостей, для отримання яких не потрібна авторизація. А ось персональні дані користувачів захищені окремим законом і ширяти їх з метою таргетування реклами або email-розсилок не можна.
Кому і навіщо потрібні парсери сайтів
Парсери заощаджують час на збирання великого обсягу даних та угруповання їх у потрібний вигляд. Такими послугами користуються інтернет-маркетологи, вебмайстри, SEO-фахівці, співробітники відділів продажів.
Парсери можуть виконувати такі завдання:
- Збір цін та асортименту. Це корисно для інтернет-магазинів. За допомогою парсера можна моніторити ціни конкурентів та наповнювати каталог на своєму ресурсі в автоматичному режимі. Парсинг метаданих сайту (title, description, заголовків H1) стане в нагоді SEO-фахівцям. - Аналіз технічної оптимізації ресурсу (биті посилання, помилки 404, непрацюючі редиректи та ін.) знадобиться сеошникам та вебмайстрам. - Програми для завантаження сайтів повністю або парсери контенту (текстів, картинок, посилань) знаходяться в «сірій» зоні. З їхньою допомогою недобросовісні вебмайстри клонують сайти для подальшого продажу з них посилань. Сюди віднесемо парсинг даних з агрегаторів і картографічних сервісів: Авіто, Яндекс.Карт, 2gis та інших. Зібрані бази використовуються для спамних дзвінків та розсилок. Кому і для яких цілей потрібні парсери, розібралися. Якщо вам потрібний цей інструмент, є кілька способів його отримати.
1. За наявності програмістів у штаті найпростіше поставити їм завдання зробити парсер під необхідні цілі. Так ви отримаєте гнучкі налаштування та оперативну техпідтримку. Найпопулярніші мови для створення парсерів - PHP та Python. 2. Скористайтеся безкоштовним або платним хмарним сервісом. 3. Встановити відповідну за функціоналом програму. 4. Звернутися до компанії, яка розробить інструмент під ваші потреби (очікувано найдорожчий варіант). З першим та останнім варіантом все зрозуміло. Але вибір із готових рішень може зайняти чимало часу. Ми спростили це завдання та зробили огляд інструментів.
Класифікація парсерів
Парсери можна класифікувати за різними ознаками.
1. За способом доступу до інтерфейсу: хмарні рішення та програми, які потребують встановлення на комп'ютер. 2. За технологією: парсери на основі мов програмування (Python, PHP), розширення для браузерів, надбудови в Excel, формули в таблицях Google. 3. За призначенням: моніторинг конкурентів, збір даних у певній ніші ринку, парсинг товарів та цін для наповнення каталогу інтернет-магазину, парсери даних соцмереж (спільнот та користувачів), перевірка оптимізації свого ресурсу. Розберемо парсери за різними ознаками, докладніше зупинимося на парсерах за призначенням.
Парсери сайтів за способом доступу до інтерфейсу
Хмарні послуги парсингу не вимагають встановлення на ПК. Всі дані зберігаються на серверах розробників, ви завантажуєте лише результат парсингу. Доступ до програмного забезпечення здійснюється через веб-інтерфейс або API.
Приклади хмарних парсерів із англомовним інтерфейсом:
http://import.io/, Mozenda (є також ПЗ для встановлення на комп'ютер), Octoparce, ParseHub. Приклади хмарних парсерів із російськомовним інтерфейсом:
Xmldatafeed, Дігернаут, Catalogloader. Всі сервіси мають безкоштовну версію, яка обмежена або періодом використання, або кількістю сторінок для сканування.
Програми-парсери
ПO для парсингу встановлюється на комп'ютер. Переважна більшість таких парсерів сумісні з ОС Windows. Власникам mac OS можна запускати їх із віртуальних машин. Деякі програми можуть працювати зі знімними носіями.
Приклади парсерів-програм:
ParserOK, Datacol, - SEO-парсери - Screaming Frog, ComparseR, Netpeak Spider та інші. Парсери сайтів в залежності від технології, що використовується.
Парсери на основі Python і PHP
Такі парсер створюють програмісти. Без спеціальних знань зробити парсер самостійно не вийде. На сьогоднішній день найпопулярніша мова для створення таких програм Python. Розробникам, які ним володіють, можуть бути корисні:
- бібліотека Beautiful Soup; - фреймворки з відкритим вихідним кодом Scrapy, Grab та інші. Замовляти розробку парсера з нуля варто лише для нестандартних завдань. Більшість цілей можна підібрати готові рішення.
Парсери-розширення для браузерів
Парсить дані з сайтів можуть безкоштовні розширення для браузерів. Вони отримують дані з html-коду сторінок за допомогою мови запитів Xpath і вивантажують їх у зручні для подальшої роботи формати - XLSX, CSV, XML, JSON, Google Таблиці та інші., опис товарів, новини, відгуки та інші типи даних.
Приклади розширень для Chrome: Parsers, Scraper, Data Scraper, Kimono.
Парсери сайтів на основі Excel
У таких програмах парсинг з подальшим вивантаженням даних у формати XLS* і CSV реалізований за допомогою макросів - спеціальних команд для автоматизації дій у MS Excel. Приклад такої програми – ParserOK. Безкоштовна пробна версія обмежена періодом 10 днів.
Парсинг за допомогою Google Таблиць
У Google Таблицях парсить дані можна за допомогою двох функцій - importxml та importhtml.
- Функція IMPORTXML імпортує дані із джерел формату XML, HTML, CSV, TSV, RSS, ATOM XML у комірки таблиці за допомогою запитів Xpath. Синтаксис функції: Розшифруємо: у першому рядку міститься укладений у лапки url (обов'язково із зазначенням протоколу) та запит Xpath.
Знання мови запитів Xpath для використання функції не обов'язково, можна скористатися опцією браузера копіювати Xpath:
Другий рядок вказує осередки, куди будуть імпортовані дані.
IMPORTXML можна використовувати для збирання метатегів та заголовків, кількості зовнішніх посилань зі сторінки, кількості товарів на сторінці категорії та інших даних.
- У IMPORTHTML більш вузький функціонал – вона імпортує дані з таблиць та списків, розміщених на сторінці сайту. Синтаксис функції: Розшифруємо: у першому рядку, як і в попередньому випадку, міститься ув'язнений у лапки URL (обов'язково із зазначенням протоколу), потім параметр "table", якщо хочете отримати дані з таблиці, або "list", якщо зі списку. Числове значення (індекс) означає порядковий номер таблиці чи списку в HTML-коді сторінки.
Парсери сайтів в залежності від розв'язуваних завдань
Щоб не помилитися з вибором програмного забезпечення або хмарного сервісу для парсингу, потрібно розуміти спектр завдань, які вони вирішують. Ми розділили парсери за сферами застосування.
Парсери для організаторів спільних покупок (СП)
Окрема категорія парсерів призначена для тих, хто займається організацією спільних покупок у соцмережах Вконтакте та Однокласники. Власники груп СП закуповують партії товару дрібним оптом за ціною дешевше, ніж у роздріб. Для цього потрібно постійно моніторити асортимент та ціни на сайтах постачальників. Щоб скоротити трудовитрати, можна використовувати спеціалізовані парсери.
У таких парсерів простий, інтуїтивно зрозумілий інтерфейс панелі керування, в якому можна вказати необхідні налаштування – сторінки для парсингу, розклад, групи у соцмережах для вивантаження та інші.
Приклади сервісів:
SPparser.ru, Турбо.Парсер, PARSER.PLUS, Q-Parser, Хмарний парсер. Що вміють парсери для СП:
- парсити товари з інтернет-магазинів та груп у соцмережах; - вивантажувати товари з фото та цінами в альбоми соцмереж - Однокласники та ВКонтакті; - вивантажувати дані у форматі CSV та XLS(X); - оновлювати інформацію в автоматичному режимі - підвантажувати нові товари та видаляти ті, яких немає. Сервіси моніторингу конкурентів
Ця група парсерів дозволяє цінам в інтернет-магазині залишатись на рівні ринку. Сервіси моніторять задані ресурси, зіставляють товари та ціни на них з вашим каталогом та надає можливість скоригувати ціну на більш привабливу. Такі парсери моніторять сайти конкурентів, парсинг даних, https://parsing.pp.ua, оновлювані прайси у форматах XLS(X), CSV та інших, маркетплейси (Яндекс.Маркет, e-katalog та інші прайс-агрегатори).
Приклади парсерів цін конкурентів:
Marketparser, Xmldatafeed, ALL RIVAL. Збір даних та автонаповнення контентом
Такі парсери полегшують роботу контент-менеджерам інтернет-магазинів тим, що замінюють ручний моніторинг сайтів постачальників, порівняння та зміну асортименту, описів, цін. Парсер збирає дані з сайтів-донорів (назви та описи товарів, ціни, зображення та ін.)), вивантажує їх у файл або відразу на сайт. У налаштуваннях можна зробити націнку, об'єднати дані з декількох сайтів, запускати збір даних в автоматичному режимі за розкладом або вручну.
Приклади парсерів для наповнення інтернет-магазинів:
Такі інструменти здатні збирати дані під різні завдання – наповнення інтернет-магазинів, моніторинг цін конкурентів, парсинг агрегаторів даних, збір SEO-параметрів та інше. До цієї групи належать усі браузерні розширення з функцією послуги парсингу.
Інші приклади багатофункціональних парсерів:
Import.io, Mozenda - комплекси інструментів для отримання та візуалізації даних. Підходять для середнього та великого бізнесу з великим обсягом завдань. Octoparce – інструмент для моніторингу цін та збору даних з будь-якого сайту. Дані вивантажуються у формати CSV чи Excel. Є доступ API. ParseHub – хмарний парсер для збору цін, контактів, маркетингових даних, скачування файлів, моніторингу конкурентів. Працює з усіма типами сайтів, у тому числі агрегаторами та маркетплейсами. Дані доступні у форматах CSV, Excel, Google Sheets, надається доступ API. Datacol. Витягує дані з сайтів, агрегаторів, соцмереж, Яндекс.Карт та інших джерел. Базові функції можна розширити за допомогою плагінів. Програма є платною, але є демо-версія для тестування. ParserOK. За допомогою програми можна парсувати дані з інтернет-магазинів, контактів, завантажувати файли різних форматів у сховище хмар. SEO-парсери
Парсери використовуються SEO-фахівцями для комплексного аналізу сайту: внутрішньої, технічної та зовнішньої оптимізації. В одних може бути вузький функціонал, інші є потужними SEO-комбайнами з різних професійних інструментів.
Завдання, які можуть виконувати SEO-парсери:
- вказувати на коректність налаштування головного дзеркала; - аналізувати зміст robots.txt та sitemap.xml; - вказувати наявність, довжину та зміст метатегів title та description, кількість та зміст заголовків h1 - h6; - Визначати коди відповіді сторінок; - генерувати XML-картку сайту; - визначати рівень вкладеності сторінок та візуалізувати структуру сайту; - вказувати наявність/відсутність атрибутів alt у картинок; - Визначати биті посилання; - Визначати наявність атрибуту rel = "canonical"; - надавати дані щодо внутрішньої перелінковки та зовнішньої посилальної маси; - відображати відомості про технічну оптимізацію: швидкість завантаження, валідність коду, оптимізацію під мобільні пристрої та ін. Коротко охарактеризуємо функціонал популярних SEO-парсерів:
Screaming Frog SEO Spider Netpeak Spider ComparseR SiteAnalyzer від Majento SE Ranking A-Parser PR-CY Xenu's Link Sleuth Screaming Frog SEO Spider
Мабуть, найпопулярніший SEO-аналізатор від британських розробників. З його допомогою можна швидко та наочно з'ясувати:
- Вміст, код відповіді, статус індексації кожної сторінки; - довжину та вміст title та description; - наявність та вміст заголовків h1 та h2; - інформацію про зображення на сайті - формат, розмір, статус індексації; - інформацію щодо налаштування канонічних посилань та пагінації; - Інші важливі дані.
Безкоштовна версія обмежена 500-ми url. У платній (ліцензію можна купити на рік) кількість сторінок для парсингу не обмежена, і вона має набагато більше можливостей. Серед них – парсинг цін, назв та описів товарів з будь-якого сайту. Як це зробити, ми докладно описали у гайді.
Найпопулярніший інструмент для комплексного аналізу сайту. Перевіряє ресурс на помилки внутрішньої оптимізації, аналізує важливі для SEO параметри: биті посилання, дублі сторінок та метатегів, коди відповіді, редиректи та інші. Ви можете імпортувати дані з Google Search Console та систем веб-аналітики. Для агенцій є можливість сформувати брендований звіт.
Інструмент платний, базові функції доступні у всіх тарифах. Безкоштовний пробний період – 14 днів.
Це програма, яка аналізує ресурс щодо технічних помилок. Особливість парсера в тому, що він також показує усі сторінки сайту в індексі Яндекс та Google. Ця функція корисна, щоб з'ясувати, які URL не потрапили в індекс, а які знаходяться в пошуку (і чи це сторінки, які потрібні оптимізатору).
Програму можна придбати та встановити на один комп'ютер. Для того, щоб ознайомитись із принципом роботи, скачайте демо-версію.
SiteAnalyzer від Majento
Безкоштовна програма для сканування всіх сторінок, скриптів, документів та зображень сайту. Використовується для технічного SEO-аудиту. Вимагає встановлення на ПК (ОС Windows), але може працювати і зі знімного носія. «Витягує» такі дані: коди відповіді сервера, наявність та вміст метатегів та заголовків, визначення атрибуту rel="canonical", зовнішні та внутрішні посилання для кожної сторінки, дублі сторінок та інші.
Звіт можна експортувати у формати CSV, XLS та PDF.
Інструмент аналізує ключові параметри оптимізації сайту: наявність robots.txt та sitemap.xml, налаштування головного дзеркала, дублі сторінок, коди відповіді, метатеги та заголовки, технічні помилки, швидкість завантаження, внутрішні посилання. За підсумками сканування сайту виставляється оцінка за 100-бальною шкалою. Існує опція створення XML-карти сайту. Корисна можливість для агенцій - формування брендованого звіту, який можна завантажити у зручному форматі або надіслати на email. Звіти запускаються вручну або за розкладом.
Можливі дві моделі оплати – за перевірки позицій та щомісячна передплата. Безкоштовний пробний період – 2 тижні.
Цей сервіс об'єднує понад 70 парсерів під різні цілі: парсинг видачі популярних пошукових систем, ключових слів, додатків, соціальних мереж, Яндекс та Google карт, найбільших інтернет-магазинів, контенту та ін. Крім використання готових інструментів, є можливості для програмування власних парсерів на основі регулярних виразів, XPath, javascript. Розробники також надають доступ API.
Тарифи залежать від кількості опцій та терміну безкоштовних оновлень. Можливості парсера можна оцінити у демо-версії, яка буде доступна протягом шести годин після реєстрації.
Онлайн-інструмент для аналізу сайтів більш ніж за 70 пунктами. Вказує на помилки оптимізації, пропонує варіанти їх вирішення, формує SEO-чекліст та рекомендації щодо покращення ресурсу. За підсумками сканування сайту виставляється оцінка у відсотках.
Безкоштовно можна отримати лише загальну інформацію щодо кількості сторінок в індексі, наявності/відсутності вірусів та фільтрів пошукових систем, посилальному профілю та деякі інші дані. Більш детальний аналіз є платним. Тариф залежить від кількості сайтів, сторінок у них та перевірок на обліковому записі. Є можливість для щоденного моніторингу, порівняння з показниками конкурентів та розвантаження брендованих звітів. Безкоштовний пробний період – 7 днів.
Згадаємо також про парсерів, які вирішують вузькоспрямовані завдання та можуть бути корисні власникам сайтів, вебмайстрам та SEO-фахівцям.
Безкоштовна програма для парсингу всіх url сайту: зовнішніх та внутрішніх посилань, посилань на картинки та скрипти і т.д. Можна використовувати для різних завдань, у тому числі для пошуку битих посилань на сайті. Програму потрібно завантажити та інсталювати на комп'ютер (ОС Windows).
За кожним посиланням буде показано її статус, тип (наприклад, text/plain або text/html), розмір, анкор та помилка.
Це інструмент, який парсить метатеги title, description, keywords та заголовки h1-h6. Можна скористатися ним для аналізу свого проекту чи сайтів-конкурентів. У першому випадку легко виявити незаповнені, неінформативні, надто довгі чи короткі метатеги, дублі метаданих, у другому – з'ясувати, які ключові запити використовують конкуренти, визначити структуру та логіку формування метатегів.
Додати список URL можна вручну, XLSX-файлом або посиланням на XML-карту сайту. Звіти вивантажуються у форматах HTML та XLSX. Перші 500 запитів – безкоштовно. Усі нюанси роботи з інструментом ми описали у гайді.
Як вибрати парсер
1. Визначтеся з метою парсингу: моніторинг конкурентів, наповнення каталогу, перевірка SEO-параметрів, суміщення кількох завдань. 2. З'ясуйте, які дані у якому обсязі та у якому вигляді вам потрібно отримати на виході. 3. Подумайте про те, наскільки регулярно вам потрібно збирати та обробляти дані: разово, щомісяця, щодня? 4. Якщо у вас великий ресурс зі складним функціоналом, є сенс замовити створення парсера з гнучкими налаштуваннями під ваші цілі. Для стандартних проектів над ринком досить готових рішень. 5. Виберіть кілька інструментів та вивчіть відгуки. Особливу увагу зверніть на якість технічної підтримки. 6. Співвіднесіть рівень підготовки (свій чи відповідальної за роботу з даними особи) зі складністю інструменту. 7. На основі наведених вище параметрів виберіть відповідний інструмент та тариф. Можливо, під ваші завдання вистачить безкоштовного функціоналу чи пробного періоду.
Уважаемый посетитель, Вы зашли на сайт kopirki.net как незарегистрированный пользователь. Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.