RuiJi.Net 抽取模型

      RuiJi.Net 抽取模型已关闭评论

结构

RuiJi.Net 将需抽取的目标进行了结构化处理,每一个需要抽取的目标页面被划分为以下结构 分别为 Block、Tile、Meta。这在RuiJi.Net中被称为抽取器。

选择器

每一个RuiJi.Net的抽取器都包含Selectors, Selectors是被用来定义所属抽取器需抽取内容的选择器。Selectors是由Selector组成,每个Selector都依赖上一个Selector的处理结果,也就是下一个Selecor相对与上一个Selector会抽取更精细的内容.

如果所属抽取器没有定义Selectors,抽取器的抽取内容会被默认为返回整个文档内容或父抽取器的抽取结果。

Block 抽取器

Block为RuiJi.Net抽取模型中最基础的单位,Block负责定位抽取区域,Block下的Tile和Meta会在Block抽取结果中进行抽取,Block下的Selectors为Block抽取器的选择器。

Block抽取器下面还可以再包含多个Block,在Block中以Blocks表示。

使用Block定位抽取区域的原因是源页面可能包含多个重复区域,而我们只对其中的部分感兴趣,这样我们可以仅对感兴趣的区域进行抽取,忽略其他的区域。如上所示,也许我们只对最新推荐感兴趣,而其他的今日热门,本周热门等我们不需要进行抽取。

Tile 抽取器

Tile为Block下重复的块,通常用来抽取列表类的源页面,Tile下的Selectors用来描述需要重复抽取的内容块, 通常Tile抽取器的选择结果是多个

Meta 抽取器

Meta抽取器可以用在Tile和Block下,当Tile具有Meta时, Meta被用来抽取的Tile重复结果中需要抽取的元数据,通常被用来抽取列表信息。当Block具有Meta时,Meta用来提取Block中需要提取的元数据,通常用来提取详细页的元数据。

当Tile具有Meta时,Meta的抽取结果通常是多组

当Block具有Meta时,Meta的抽取结果通常为一组

© 2018, RuiJi 社区. 版权所有.转载请注明出处