spider_utils

Crates.io	spider_utils
lib.rs	spider_utils
version	2.37.160
created_at	2024-07-24 13:17:57.822249+00
updated_at	2025-09-20 03:54:13.856351+00
description	Utilities to use for Spider Web Crawler.
homepage
repository	https://github.com/spider-rs/spider
max_upload_size
id	1313984
size	40,278

Jeff Mendez (j-mendez)

documentation

https://docs.rs/spider_utils

README

spider_utils

Utilities to use to help with getting the most out of spider.

CSS Scraping

use spider::{
    hashbrown::HashMap,
    packages::scraper::Selector,
};
use spider_utils::{QueryCSSMap, QueryCSSSelectSet, build_selectors, css_query_select_map_streamed};

async fn css_query_selector_extract() {
    let map = QueryCSSMap::from([(
        "list",
        QueryCSSSelectSet::from([".list", ".sub-list"]),
    )]);
    let data = css_query_select_map_streamed(
        r#"<html>
            <body>
                <ul class="list"><li>First</li></ul>
                <ul class="sub-list"><li>Second</li></ul>
            </body>
        </html>"#,
        &build_selectors(map),
    )
    .await;

    println!("{:?}", data);
    // {"list": ["First", "Second"]}
}

Features

You can use the feature flag indexset to order the CSS scraping extraction order.

Commit count: 1417

spider_utils

documentation

README

spider_utils

CSS Scraping

Features

cargo fmt