Web Scraping Libraries

Use Cases

Scraping Features

Programming Languages

Output Formats

Authentication Support

Community and Support

Jsoup

Java library for HTML/XML parsing, data extraction, and element manipulation.

DOMParser

Convert XML/HTML strings into DOM documents for easy manipulation via JavaScript.

BeautifulSoup

Python library for easy web scraping and data extraction from HTML/XML documents.

Html Agility Pack

.NET library for parsing and manipulating malformed HTML, supports XPath and LINQ queries.

lxml

Efficient XML/HTML processing with Python's lxml library.

LMXL

Python library for efficient XML/HTML processing with XPath, XSLT, and schema validation.

Cheerio

JavaScript library for efficient HTML/XML parsing with jQuery-like syntax.

PyQuery

Python library for HTML parsing and web scraping with jQuery-like syntax.

htmlparser2

Efficient Node.js HTML/XML parser for high-performance web scraping and data extraction.

trafilatura

Web text extraction tool for efficient crawling and content extraction.

jusText

Heuristic tool for extracting meaningful text from HTML pages.

html5lib

Python library for accurate HTML parsing, supports error recovery and multiple tree formats.

Pipet

A command-line web scraper supporting HTML parsing, JSON parsing, and client-side JavaScript evaluation

Nokogiri

Ruby gem for parsing and manipulating XML/HTML with CSS3 selectors and XPath expressions.

Scrapling

Scrapling is a fast, adaptive Python web scraper that bypasses anti-bot measures and outperforms libraries like BeautifulSoup.

Parsel

Streamlines web scraping with CSS, XPath, and regex for HTML/XML data extraction.

Newspaper

Efficiently extracts and parses online news articles using Python.

Parse5

High-performance HTML parser for Node.js following the WHATWG standard.

Filters