无语博客

花儿死翘翘


您的位置: 首页 无语分享 正文

《网站链接抓取器》抓取规则详解

抓取规则设置

在重写软件的时候发现有这么一个设置,想到有些朋友可能不明白怎么设置。所以就借这篇文章来解释一下。

“包含”的意思是指只保留符合此规则里的链接。如果留空,则保留所有链接。

“排除”的意思是指不保留符合此规则里的链接。如果留空,则不排除任何链接。


在设置规则的地方,有一个输入框,后面有“或”和“且”。

输入框里,就要“包含”或者“排除”的内容。

比如在包含里输入 “tags”(不含引号) ,那么软件就只会保留有“tags”这几个字符的链接,其它链接一概舍去。

同要的,在“排除”里输入某内容,软件就不保留包含此内容的链接。


然后输入框里并不是只能输入一条内容。而是一行一条。可以输入N条。

各条内容之类的关系就需要选择后面的“或”和“且”了。

还是拿“包含”来举例。

比如有4条链接:

aaa/dsfjniwoewer/bbb/dspo22.html

aaa/ds1f56we8sd/ccc/dsewodsf2.html

aaa/iejwo2834sd/bbb/1s022.html 

123/fs0lkop[pw/bbb/6dfwisll.html 


然后我只想保留第1条和第3条怎么办?如果只输入 aaa 会保留1、2、3条。如果只输入 bbb 会保留 1、3、4条。

这时候就可以输入两个条件。

第一行输入 aaa

然后换行,在第二行输入 bbb

再选择后面的 “且”

“且”的意思就是同时满足前面的条件,才保留(或者排除)链接。

“或”的意思就是前面的条件,只要满足一条,就保留(或者排除)链接。


这篇文章算是完成第四期《100天计划》的第1天写文章的任务了。

本文地址:https://www.wuyublog.com/wuyufenxiang/398.html,来源于【无语博客】,欢迎转载,转载请注明出处。
发表评论: