Методики парсинга

Давайте теперь поговорим о методиках парсинга больших сайтов. Речь идет о таких задачах, как, например, сбор товаров с интернет магазина. Чтобы собрать все товары, мы должны пройтись по всем категориям, по подкатегориям, по пагинации и, наконец, по товарам.

В этом случае возможно использовать два подхода - поэтапный парсинг и метод паука. Давайте разберемся подробнее.

Поэтаптный парсинг

Итак, нам нужно спарсить товары интернет магазина. Пусть в этом магазине стандартно есть категории, подкатегории и товары. Каждый товар принадлежит определенной подкатегории, которая в свою очередь принадлежит категории. Когда мы парсим товар - мы должны также спарсить его категорию и подкатегорию.

В этом случае парсинг идет так: сначала парсятся все категории, затем парсер заходит в каждую категорию и парсит все подкатегории, затем парсер заходит в каждую подкатегорию и парсит там все товары. Это и есть поэтапный парсинг.

Посмотрим подробнее в следующем видео:

Здесь скоро будет видео.

Метод паука

Поэтапный парсинг достаточно сложный и его сложность растет при увеличении количества под-под-под-категорий и пагинации. Есть и другой метод.

Его суть: парсер заходит на главную страницу сайта, берет все ссылки оттуда, сохраняет их в базу данных. Затем берет первую ссылку из базы, заходит на нее, парсит все ссылки и сохраняет в базу данных (сохраняет только те, которых там нет). И так продолжается, пока весь сайт не закончится.

При этом когда парсер заходит на какую-либо страницу для сбора ссылок - он еще разбирает контент. Если этот контент целевой, например, товар интернет магазина - он сохраняется в базу.

Как в этом случае узнать категорию и подкатегорию товара? Они чаще всего указаны на странице с товаром и оттуда их можно забрать.

Посмотрим подробнее в следующем видео:

Здесь скоро будет видео.

Как отделить нужные страницы в методе паука

... по урлу можно /категория/подкатегория/страница ...

Пагинация

Сбор ссылок и парсинг контента