RuiJi.Net 选择器类型

      RuiJi.Net 选择器类型已关闭评论

RuiJi.Net 的选择器(Selector)被用来抽取所属结构的内容,通常为一个或多个,下一个选择器处理的是上一个选择器的处理结果,通过逐层处理的方式,我们可以将抽取结果进行精细化抽取,以达到最终需要的抽取结果。

RuiJi.Net 的选择器有以下类型

类型 说明
CSS 样式选择器,类似于JQuery
REGEX 正则选择器
REGEXSPLIT 分割选择器,支持正则分割
TEXTRANGE 文本区域选择器
EXCLUDE 排除选择器
REGEXREPLACE 替换选择器
JPATH JSON选择器
XPATH xpath选择器,用来处理xml文档
CLEAR 清除选择器,清理html标签
EXPRESSION 表达式选择器,用来匹配地址
SELECTORPROCESSOR 函数选择器,通过自定义函数处理选择器结果

Css 选择器

css选择器使用的类库是CsQuery, CsQuery提供了类似JQuery的方法,通过css选择器来处理html页面。在RuiJi.Net中通常css选择器会作为Selectors的第一个选择器,用来定位选择区域。

Regex 选择器

regex选择器是使用正则表达式来抽取内容,在RuiJi.Net可以通过配置提取表达式结果或分组结果。

RegexSplit 选择器

以正则表达式分割字符串,并提取其中的指定索引的结果,可以指定多个

TextRange 选择器

文本区域选择器,该选择器通过定义文本开始的字符串和文本结束的字符串,来抽取开始和结束文本区域中间的内容。

Exclude 选择器

排除选择器用来排除指定的文本内容。需排除的内容以正则表达式定义。

RegexReplace 选择器

正则替换选择器,被用来将匹配出的结果替换成目标结果。

JPath 选择器

JsonPath 选择器被用来处理Json格式的文档。

XPath 选择器

XPath 选择器被用来处理XML文档

Clear 选择器

Clear选择器会自动清除一些Html源文件的标签,包含:script、style、iframe、input、textarea、select、form及注释等。

Expression 选择器

表达式选择器通常使用通配符抽取需要的链接地址。

SELECTORPROCESSOR 选择器

SELECTORPROCESSOR 选择允许用户调用外部已经定义好的函数处理一些特殊的抽取结果,例如抽取出的时间是 xx 分钟前。

© 2018, RuiJi 社区. 版权所有.转载请注明出处