无语博客

关注营销软件_网站SEO_接受软件合作的博客


您的位置: 首页 软件发布 正文
在微信阅读文章请描左侧二维码。
微 信:100天践行者(myplan100),扫描左侧二维码或公众号搜索:100天践行者
简 介:更新和软件有关的一些东西以及自己的提升计划
分享一些高效成长,高效学习的小技巧。 推 荐:如果自我提升,制定计划,设置目标,请移步:个人计划网

《网站链接抓取器》更新2018-09-18

网站链接抓取器

 

先说一下作用:

 

网站链接抓取器顾名思义,主要是用来抓取网站链接的。

 

也就是输入一个网站的首页地址,然后软件可以把整个网站页面地址给抓取下来并保存。

 

有啥作用呢?

 

一、制作网站地图

 

使用软件保存的TXT。直接上传到网站根目录就可以成为一个简单的TXT网站地图。

 

制作成网站地图后,可到 http://zhanzhang.baidu.com/sitemap/index 进行提交,以增加收录。

 

二、检查失误。

 

所谓的失误,是指某些后台链接。不想让用户知道的。但是由于不小心在程序的某个地方有该网页的链接自己没注意到。这时候就可以使用软件把整个网站的链接抓取下来。然后检查看看有没有敏感链接。

 

三、检查收录。

 

可以查看一下百度对本站的索引量。然后使用软件把网站的所有链接都抓取下来。看看数量上的差距是否比较大。如果差距过大,则要注意是否空间不稳定或者文章质量太低或者暴光率太低。

 

使用方法:

 

1、输入需要抓取的网站首页地址。

 

2、设置线程数量。(线程越少,速度越慢,耗CPU及网速越低,越不容易漏掉链接。线程越多,速度越快,耗CPU及网速越高,漏抓取机率高。)

 

3、设置包含或排除规则。(使用方法见:https://www.wuyublog.com/wuyufenxiang/398.html)


4、选择抓取后的链接保存地址。(注:如果选择的TXT名称为 abc.txt的话。软件会保存为 abc_*.txt 的形式)

 

5、选择每个TXT保存的条数。(以第3条举例,如果这里设置为5000,当abc_1.txt保存的链接数到达5000,后面的链接会自动保存到abc_2.txt里,依此类推。)

 

6、开始

 

下载地址:


百度网盘


本文地址:https://www.wuyublog.com/ruanjianfabu/70.html,来源于【无语博客】,欢迎转载,转载请注明出处。
  • 评论列表:
发表评论:
  •  袁先生
    发布于 2018-08-01 15:53:14  回复该评论
  • 百度收录九百多条,软件抓取无限条,这个怎么破。大神。
  •  lmcjl
    发布于 2018-06-24 16:53:57  回复该评论
  • 可以试试这个在线大规模的网站抓取工具
  •  访客
    发布于 2018-06-08 14:55:42  回复该评论
  • 软件很强大,但是能否加一个内链也带上?自动拼接?
  •  LUBY
    发布于 2017-08-10 13:36:19  回复该评论
  • 软件很不错,谢谢。
    发现个问题:大型网站采不全,只采集到一小部分网址,比如:http://www.fudan.edu.cn/index.html,软件是否能优化 ?
    •  无语
      发布于 2017-08-10 21:58:37  回复该评论
    • 等有空了更新一下。有啥问题都可以留言反馈,能更新的,有时间了都会更新的。
      嗯,如果要求的功能太复杂,就有可能不会更新了。只是BUG的话是一定会更新的
  •  兵荒马乱
    发布于 2017-08-09 23:50:00  回复该评论
  • 能不能做一个可以批量导入链接的功能,能导出站内和站外的链接
  •  humxman
    发布于 2017-04-24 19:44:15  回复该评论
  • 非常不错,用这个然后再配合其它工具就可以用来验证网站是否存在404等链接。不过网络不好的情况下应该是超时问题的原因吧,容易造成漏抓链接。
  •  11
    发布于 2017-03-08 10:57:48  回复该评论
  • 网站有的几千页,每页有很多链接,可不可修改一下弄成可以用页码来抓的
  •  访客
    发布于 2016-07-22 13:46:22  回复该评论
  • 如果可以设置只抓取含有指定字符串的url就完美了
  •  手机号归属
    发布于 2015-09-16 16:26:51  回复该评论
  • 可以加一个选项,包含当前域名的二级域名吗?设置一组或所有二级域名
  •  轻便搜索
    发布于 2015-07-16 10:48:11  回复该评论
  • 东西很不错,如果能添加过和包含功能就完美了。如只抓取频道页的链接,就包含频道目录名称,或者排除某个频道不抓取,就排除相应的名称。
  •  访客
    发布于 2015-06-30 15:00:49  回复该评论
  • 我想跟你说一下,可不可以加大5000的数量,我现在网站数量已经有4000多了 ,很快就5000限制,可以放大点吗
    •  无语
      发布于 2015-07-07 11:33:39  回复该评论
    • 呃,那啥~~那个5000是自己设置的。。。不过如果设置得太多。。越到后面就越有可能会卡。