全自动采集软件,采集软件优势在于最新,采集自己想要的新闻,并不是去一些半年更新一次的网站去采,今天采集新闻的是腾讯和新浪的这些大牛网站,采集大的网站好处在于更新及时,最主要是他们文章中心思想突出,不会乱七八糟的写,权威性大,这个对于百度收录有一定的好处,不然小网站,你哪怕是原创之中的原创,因为权重小,人家也不看好你的存在,而且大的网站,往往他不会封IP,也不会因为你访问频繁就拦截住,这样就省去了换IP,清空缓存这些繁琐的事发生。采集的内容可以更新自己网站,也可以用来了帖放尾部,各种更新全靠他们了。
这个是软件主界面,千篇一律的,要是觉得视频彼惫,可以按自己思路各种移动的。这个脚本是采集腾讯财经,娱乐,国际,时尚,旅游,还会采集新浪娱乐,体育,时尚,教育,科技这些分类版块。
上面图标例出的按钮留下几条是你采集的时候,想保留几条放到列表去用,而采集几页是看你要最新的这些新闻,还是把整站给采下来。功能不多,但全部是这样采集下来的。
如果你是发帖,可能要把新闻的一些关键字给屏蔽替换掉,这个脚本都有加在这里,一般替换为空的操作 这个是采集,放到保存的列表中的是这里,如果你采的比较多,最好导出为数据库,或是表格文件,这样不容易出错。
这里的采集脚本,一个就是一个网站,我们可以全部连接起来,从上往下运行脚本操作,只要加上调用脚本就可以全部连接起来,我这个脚本没有把他们连接起来,因为连接起来,全部放到一个表格里,可能你是不需要这样操作的。
跨脚本调用是这个动作,右键后会弹出来,在其它公共脚本里面可以找到它。
这个采集脚本打开的是第一步主网站的分类页面,可千万不要以为首页可以采的,因为首页他是很多版块给集中放到那的,采集规则自然是不相同的。但是腾讯这个还好,他链接还是比较统一的,几乎所有版块只是网址不同,但内容模板却是一样的。
这个动作循环,是让软件知道你要采集几页,在这个动作里调用了文件框的那个采集几页数字的
这个滚动到底部,他网站会自动翻页,如果你不是用YYPOST,万能会没有这个功能,那我们可以用JS代替:window.scrollTo(0,document.body.scrollHeight); 翻下一页,他网站加载是要一定时间的,特别是网速慢的话,必须要加上这个倒计时去,不然采集的是秒完成就翻过去了,他可不知道你用什么判断加载完网页的
翻页全部加载完了后,这个就是把所有新闻网址给采集下来的动作,为什么我们翻完页了才去采集呢,这个就是因为他网页的特别之处了,他能把所有网页都加到到一个网页的JS加载,一般的没有自动加载的网站,他是翻一页采集一次。
这里的数组意思是把所有链接采集完了,一个一个打开,打开完了会到最后第四步滚动定位,其实这个只是找一个着力点类似的东东,你可以放任何动作去,像倒计时了什么的都可以。
这个是打开网页让你去采集里面的内容的动作,这里是调用文本框。里面有二个逻辑判断,第一个逻辑判断是:你需要留下几条链接,就跳走并停止。
第二个逻辑判断是:这个是判断他视频就跳转走到别的动作去,这里是跳到日志这个动作的。
这里第三第四第五步,是采集动作,他能从开始截断,然后到免责声明这里截断,因为他有好几个模板,所以这里用了不同的截图,就可以不采到一些无用的内容了。
采集任何网站按网站的规则来,有的网站模板多一些可以做几次采集就可以了,有的网站简单一个采集就全站通吃下来了。
自动采集新浪腾讯软件LOGO图片: