Easy-DotNET Easy-DotNET
🏠首页
  • 知识地图
  • 源码脑图

    • 总览
    • Program
    • WebApplication
    • Host主机
    • WebHost主机
    • 依赖注入
    • Autofac
    • Middleware中间件
    • RateLimiter限制速率
    • 响应缓存、请求解压缩
  • 设计初衷
  • 克隆
  • 类型转换
  • 日期时间
  • IO流
  • 工具类
  • 语言特性
  • 集合类
  • Codec编码
  • 文本操作
  • 数学
  • 图片
  • 网络
  • Emoji表情
  • C# 12
  • C# 11
  • C# 10
  • C# 9.0
  • C# 8.0
  • C# 早期版本
  • C# 教程
  • ORM
  • 定时任务
  • 日志
  • 认证与授权
  • Swagger
  • 对象映射
  • 熔断重试限流
  • 缓存
  • 注册发现
  • 网关
  • GraphQL
  • 更多
  • Docker

    • 简介
    • Adminer
    • Apisix
    • Apollo
    • Cassandra
    • Cerebro
    • ClickHouse
    • Consul
    • EasyMock
    • Elasticsearch
    • Emqx
    • FastDFS
    • Flink
    • Gitlab
    • Jenkins
    • Jrebel
    • MariaDB
    • MySQL
    • Percona
    • Phpmyadmin
    • PostgreSQL
    • Redis
  • Linux

    • 查看Linux系统信息
    • CentOS7调整磁盘分区
    • IO压测
    • 图形化监控工具Cockpit
  • 总览
  • 列表

    • 算法数据结构
    • API
    • 应用框架
    • 应用模板
    • 操作系统
    • 工作流
    • 入门套件
    • 示例
    • 人工智能
    • 程序集
    • Assets
    • 认证授权
    • Blazor
    • 区块链
    • 书籍
    • 自动构建
    • 报表
    • 缓存
    • 日历
    • 聊天
    • CLI
    • CLR
    • CMS
    • 代码分析和指标
    • 代码片段
    • 压缩
    • 持续集成
    • 密码学
    • 数据库
    • 数据库驱动
    • 日期时间
    • 反编译
    • 部署
    • DirectX
    • 分布式计算
    • DLR
    • 文档
    • 电商支付
    • 模拟器
    • 环境管理
    • ETL
    • 事件消息
    • Exception
    • 扩展
    • 函数式编程
    • 游戏引擎
    • GIS
    • Git工具
    • 绘图
    • GraphQL
    • GUI
    • HTML-CSS
    • HTTP
    • IDE
    • 图片处理
    • 安装工具
    • 交互式编程
    • 国际化
    • 互操作性
    • IoC
    • JS引擎
    • 日志
    • 机器学习和数据科学
    • Markdown
    • 邮件
    • 数学
    • 媒体
    • 指标
    • 微型框架
    • 最小化器
    • MVVM
    • 网络
    • 对象映射
    • Office
    • OpenAI
    • ORM
    • 包管理器
    • PDF
    • 性能分析工具
    • 协议
    • 推送通知
    • SQL构建器
    • 消息队列
    • RPC
    • 响应式编程
    • 实时通信
    • 正则表达式
    • 任务调度
    • SDK和API
    • 搜索引擎
    • 序列化
    • SMS
    • 状态机
    • 静态站点生成
    • 强命名
    • 风格指南
    • 模板引擎
    • 测试
    • 工具
    • 交易
    • UI自动测试
    • Visual Studio 插件
    • Web浏览器
    • Web框架
    • WebServers
    • WebSocket
    • Windows服务
    • WPF
    • 解析器
    • 源码生成
    • 其他
    • 资源
  • AspNetCore面试题
  • Elasticsearch面试题
  • MongoDB面试题
  • MySql面试题
  • Nginx面试题
  • RabbitMQ面试题
  • Redis面试题
  • 设计模式
  • 微服务
🧑‍💻.NET Blog
GitHub (opens new window)
🏠首页
  • 知识地图
  • 源码脑图

    • 总览
    • Program
    • WebApplication
    • Host主机
    • WebHost主机
    • 依赖注入
    • Autofac
    • Middleware中间件
    • RateLimiter限制速率
    • 响应缓存、请求解压缩
  • 设计初衷
  • 克隆
  • 类型转换
  • 日期时间
  • IO流
  • 工具类
  • 语言特性
  • 集合类
  • Codec编码
  • 文本操作
  • 数学
  • 图片
  • 网络
  • Emoji表情
  • C# 12
  • C# 11
  • C# 10
  • C# 9.0
  • C# 8.0
  • C# 早期版本
  • C# 教程
  • ORM
  • 定时任务
  • 日志
  • 认证与授权
  • Swagger
  • 对象映射
  • 熔断重试限流
  • 缓存
  • 注册发现
  • 网关
  • GraphQL
  • 更多
  • Docker

    • 简介
    • Adminer
    • Apisix
    • Apollo
    • Cassandra
    • Cerebro
    • ClickHouse
    • Consul
    • EasyMock
    • Elasticsearch
    • Emqx
    • FastDFS
    • Flink
    • Gitlab
    • Jenkins
    • Jrebel
    • MariaDB
    • MySQL
    • Percona
    • Phpmyadmin
    • PostgreSQL
    • Redis
  • Linux

    • 查看Linux系统信息
    • CentOS7调整磁盘分区
    • IO压测
    • 图形化监控工具Cockpit
  • 总览
  • 列表

    • 算法数据结构
    • API
    • 应用框架
    • 应用模板
    • 操作系统
    • 工作流
    • 入门套件
    • 示例
    • 人工智能
    • 程序集
    • Assets
    • 认证授权
    • Blazor
    • 区块链
    • 书籍
    • 自动构建
    • 报表
    • 缓存
    • 日历
    • 聊天
    • CLI
    • CLR
    • CMS
    • 代码分析和指标
    • 代码片段
    • 压缩
    • 持续集成
    • 密码学
    • 数据库
    • 数据库驱动
    • 日期时间
    • 反编译
    • 部署
    • DirectX
    • 分布式计算
    • DLR
    • 文档
    • 电商支付
    • 模拟器
    • 环境管理
    • ETL
    • 事件消息
    • Exception
    • 扩展
    • 函数式编程
    • 游戏引擎
    • GIS
    • Git工具
    • 绘图
    • GraphQL
    • GUI
    • HTML-CSS
    • HTTP
    • IDE
    • 图片处理
    • 安装工具
    • 交互式编程
    • 国际化
    • 互操作性
    • IoC
    • JS引擎
    • 日志
    • 机器学习和数据科学
    • Markdown
    • 邮件
    • 数学
    • 媒体
    • 指标
    • 微型框架
    • 最小化器
    • MVVM
    • 网络
    • 对象映射
    • Office
    • OpenAI
    • ORM
    • 包管理器
    • PDF
    • 性能分析工具
    • 协议
    • 推送通知
    • SQL构建器
    • 消息队列
    • RPC
    • 响应式编程
    • 实时通信
    • 正则表达式
    • 任务调度
    • SDK和API
    • 搜索引擎
    • 序列化
    • SMS
    • 状态机
    • 静态站点生成
    • 强命名
    • 风格指南
    • 模板引擎
    • 测试
    • 工具
    • 交易
    • UI自动测试
    • Visual Studio 插件
    • Web浏览器
    • Web框架
    • WebServers
    • WebSocket
    • Windows服务
    • WPF
    • 解析器
    • 源码生成
    • 其他
    • 资源
  • AspNetCore面试题
  • Elasticsearch面试题
  • MongoDB面试题
  • MySql面试题
  • Nginx面试题
  • RabbitMQ面试题
  • Redis面试题
  • 设计模式
  • 微服务
🧑‍💻.NET Blog
GitHub (opens new window)
npm
  • 简介
  • ORM

    • EFCore
    • Dapper
    • FreeSql
    • SqlSugar
  • 任务调度

    • Hangfire
    • Quartz
    • FluentScheduler
    • Coravel
    • Quartzmin
  • 日志

    • Serilog
    • NLog
    • Log4Net
    • Stackdriver
    • ExceptionLess
  • 身份认证与授权

    • IdentityServer4
    • Identity
    • JWTBearer
    • Auth0
    • OpenIddict
  • Swagger文档

    • Swagger
    • Swashbuckle
    • NSwag
    • ReDoc
  • 对象映射

    • AutoMapper
    • EmitMapper
    • AgileMapper
    • Mapster
  • 消息传递

    • MediatR
    • MassTransit
    • Rebus
    • NServiceBus
  • 熔断重试限流

    • Polly
    • Resilience4j
    • AkkaNET
  • 缓存

    • CsRedis
    • FreeRedis
    • EasyCaching
    • StackExchangeRedis
    • CacheCow
    • NCache
    • Memory
  • 注册发现

    • Consul
    • Nacos
    • Apollo
  • 网关

    • Ocelot
    • Kong
    • Traefik
    • Zuul
  • GraphQL

    • GraphQLPlatform
    • GraphQLdotnet
  • 更多

    • NodaTime
    • FluentAssertions
    • Humanizer
    • 爬虫-AngleSharp
      • AngleSharp基础知识
      • 解析HTML文档
      • 操作DOM元素
      • 使用CSS选择器
      • 使用Linq查询
      • 使用AngleSharp扩展
        • AngleSharp.XPath
        • AngleSharp.Extensions.Selectors
      • 使用AngleSharp实现Web爬虫
      • 总结
    • 邮件-MailKit
  • NET微服务
  • 更多
一个大西瓜
2023-04-25
目录

爬虫-AngleSharp

开源地址

Github:https://github.com/AngleSharp/AngleSharp (opens new window)

AngleSharp是一个跨平台的开源HTML解析器,它支持标准DOM操作、CSS选择器和Linq查询。AngleSharp是用C#编写的,可以在.NET平台上使用。

在本文中,我们将深入了解AngleSharp的使用方法,包括:

  • AngleSharp基础知识
  • 解析HTML文档
  • 操作DOM元素
  • 使用CSS选择器
  • 使用Linq查询
  • 使用AngleSharp扩展
  • 使用AngleSharp实现Web爬虫

# AngleSharp基础知识

AngleSharp提供了一个开发人员友好的API,用于解析HTML文档、操纵DOM元素、执行CSS选择器和Linq查询。AngleSharp具有良好的文档和示例,让您快速上手。

AngleSharp可以使用NuGet包管理器轻松添加到您的项目中。使用以下命令安装AngleSharp:


PM> Install-Package AngleSharp

安装AngleSharp之后,您可以在C#代码中使用AngleSharp命名空间。


using AngleSharp;

# 解析HTML文档

AngleSharp提供了一个简单的方法来解析HTML文档。以下是一个使用AngleSharp解析HTML文档的示例:


var html = "<html><body><h1>Hello, AngleSharp!</h1></body></html>";

var parser = new HtmlParser();
var document = parser.ParseDocument(html);

Console.WriteLine(document.DocumentElement.OuterHtml);

上面的代码将打印以下输出:


<html><head></head><body><h1>Hello, AngleSharp!</h1></body></html>

# 操作DOM元素

使用AngleSharp,您可以轻松地操作DOM元素。以下是一些示例操作DOM元素的代码:


// 获取元素
var element = document.QuerySelector("h1");

// 获取元素的属性值
var attributeValue = element.GetAttribute("class");

// 设置元素的属性值
element.SetAttribute("class", "highlight");

// 获取元素的文本内容
var textContent = element.TextContent;

// 设置元素的文本内容
element.TextContent = "New content";

# 使用CSS选择器

AngleSharp还支持使用CSS选择器选择DOM元素。以下是一些使用CSS选择器的示例代码:


// 获取所有p元素
var paragraphs = document.QuerySelectorAll("p");

// 获取第一个p元素
var firstParagraph = document.QuerySelector("p:first-of-type");

// 获取所有具有highlight类的元素
var highlightedElements = document.QuerySelectorAll(".highlight");

# 使用Linq查询

使用AngleSharp,您可以使用Linq查询对DOM元素进行筛选和操作。以下是一些使用Linq查询的示例代码:


// 获取所有具有highlight类的元素
var highlightedElements = document.QuerySelectorAll(".highlight");

// 获取所有具有highlight类的元素的文本内容
var highlightedText = highlightedElements.Select(x => x.TextContent);

// 获取所有h2元素的文本内容
var h2Text = document.QuerySelectorAll("h2").Select(x => x.TextContent);

# 使用AngleSharp扩展

AngleSharp还提供了一些扩展,可以帮助您更轻松地处理HTML文档。以下是一些AngleSharp扩展的示例代码:

# AngleSharp.XPath

使用AngleSharp.XPath扩展,您可以使用XPath选择器选择DOM元素。以下是一个使用AngleSharp.XPath的示例:


using AngleSharp.XPath;

// 获取第一个p元素
var firstParagraph = document.XPathSelectElement("//p");

# AngleSharp.Extensions.Selectors

AngleSharp.Extensions.Selectors扩展为AngleSharp添加了一些额外的CSS选择器。以下是一些使用AngleSharp.Extensions.Selectors的示例:


using AngleSharp.Extensions.Selectors;

// 获取第一个具有highlight类的p元素
var highlightedParagraph = document.QuerySelector(":scope p.highlight:first-of-type");

// 获取所有具有highlight类的直接子元素
var highlightedChildren = document.QuerySelectorAll(":scope > .highlight");

# 使用AngleSharp实现Web爬虫

使用AngleSharp,您可以轻松地编写Web爬虫来从网站中抓取数据。以下是一个使用AngleSharp实现Web爬虫的示例:


var config = Configuration.Default.WithDefaultLoader();
var address = "https://www.example.com/";
var document = await BrowsingContext.New(config).OpenAsync(address);
var links = document.QuerySelectorAll("a");

foreach (var link in links)
{
    var href = link.GetAttribute("href");
    Console.WriteLine(href);
}

上面的代码将打印页面中所有链接的URL。

# 总结

AngleSharp是一个强大的HTML解析器,它提供了许多方便的方法来解析HTML文档、操纵DOM元素、执行CSS选择器和Linq查询。此外,AngleSharp还提供了许多扩展和工具,使得使用它来编写Web爬虫变得更加简单。如果您需要在.NET平台上处理HTML文档,那么AngleSharp绝对是您的不二之选。

上次更新: 2023/04/26, 22:10:06
Humanizer
邮件-MailKit

← Humanizer 邮件-MailKit→

Theme by Vdoing | Copyright © 2019-2024 一个大西瓜 | MIT License | 苏ICP备2023013501号
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式