请选择 进入手机版 | 继续访问电脑版

个人站长如何批量采集文章?火车头采集器使用详细教程

来自: 百度 收藏 分享 邀请
个人站长如何批量采集文章?火车头采集器使用详细教程 已经很久没有使用火车头采集器了。想起第一次研究火车头采集还是刚毕业做外推那会儿,经常会登陆火车头采集器去采集各大相关网站的相关内容。而且那个时候采集之风盛行,到处是各种采集站,尤其是小说站、文章站等,动不动就是采集数十万的文章,网站做到权重 4 那是轻而易举。虽然现在大部分网站很少采集了,但采集还是无处不在,因为一些所谓的原创站点,文章内容很有可能也是采集之后再进行加工制作而成的。所以掌握一种采集技巧对个人站长而言还是很有帮助的。下面冷眸软件库分享的便是火车头采集器使用教程,供新手个人站长们参考。 火车头采集器网址规则设置 第一步、打开火车头采集器,点击【新建】创建一个新任务,填写一个任务名,设置采集网址规则,分别设置列表页采集规则和列表页所在的文章页规则,分为以下两个步骤。 步骤 1:添加起始网址,点击【添加】,选择批量/多页,在地址格式设置需要采集的网页链接,点击【添加】和【完成】即可。此步骤目的是确立有多少个栏目分页链接。 采集网页链接技巧说明:首先确定要采集的网页栏目页,分别查看栏目分页 1、分页 2 和分页 3 链接规律,对比后会发现分页 2 和分页 3 链接很像,只有 2 和 3 变化了(分页 1 其实也是如此,为了 SEO 格式一般做了隐藏,所以分页 1 和栏目首页链接一致)可以分析是按照等差数列排列,其实绝大多数的网站栏目页分页都是等差数列来排列的,包括尹华峰博客也是如此。因此,在填写规则是选择等差数列,在地址格式处填写分页 2 的链接,将变化的数字用(*)代替,根据栏目分页的多少设置项数即可。 步骤 2:多级网址获取,点击【添加】,选择网址获取选项,添加提取网址的规则,使用熟练后建议使用结果网址过滤功能,将需要包含的网址和不必包含的网址写进去,可以测试一下规则是否填写正确,然后保存即可。此步骤目的是确立每个栏目下的文章页链接。 多级网址获取技巧说明:我们要获取的是该栏目下的文章页链接,去原网页查看栏目分页的源代码,在该源码页找到第一篇文章页链接的位置,然后在上面选取一小段通用代码,一定是每个栏目页都会出现的代码,通常的表现形式会带有 list 或者 article 的代码。 火车头采集器内容规则设置 第二步、设置采集内容规则,可以在典型页面处填写一篇文章页链接进行测试,分别设置标题采集规则和内容采集规则,也分为两个步骤。 步骤 a:双击【标题】标签,一般网页的标题是标签,所以这一步可以默认,如果有需要的话是可以设置内容过滤,以及内容替换的。 步骤 b:双击【内容】标签,内容提取规则和第一步的步骤 2 多级网址获取方法是一样的。这里是获取内容,所以是查看内容页的源代码,在该页面找到正文内容,在正文首段上面截取一小段通用代码,该代码也是所有文章页都会出现的,通常的表现形式是 article 标签为起始,</article>为结束。同样也可以设置内容过滤、内容替换以及标签过滤等,将不需要的信息过滤掉。如不需要图片,可以勾选过滤掉 img 图片标签。 火车头采集器发布内容设置 第三步、发布内容设置,勾选需要启用的发布方式,保存即可,然后在任务列表处右键任务名,点击【开始任务】等待采集完成。 注,火车头采集器发布内容分为两个方式,方式一是 web 在线发布到网站,需要添加发布配置。新手不建议直接发布到网站,建议勾选第二个保存为本地。至于文件模板可以【查看默认模板】,然后选择 TXT 格式即可。 结语:火车头采集器功能十分强大,除了采集文章还可以采集<a href="https://www.zyx0.cn/forum-49-1.html" target="_blank" class="relatedlink">视频</a>等,火车头采集器使用规则并不难,根本不需要懂什么编程之类的语言,只需能看懂一些常用的简单代码即可,操作一两次基本可以完全掌握,是一款非常棒的 SEO <a href="https://www.zyx0.cn/forum-57-1.html" target="_blank" class="relatedlink">工具</a>。 </td></tr></table> <script src="https://www.zyx0.cn/source/plugin/keke_xzhseo/js/jquery.js" type="text/javascript"></script> <script>kekexzjq=jQuery.noConflict();</script> <script> postdata(); function postdata() { kekexzjq.get('plugin.php?id=keke_xzhseo:postdata', {formhash:'3f039b46',type:'2',mods:'1',atid:'7'},function (data){ }); } </script> <script src="static/js/home.js?U8C" type="text/javascript"></script> <div id="click_div"> <table cellpadding="0" cellspacing="0" class="atd"> <tr><td> <a href="https://www.zyx0.cn/home.php?mod=spacecp&ac=click&op=add&clickid=1&idtype=aid&id=7&hash=f366da93ceaa62a62943434ecf45f41b&handlekey=clickhandle" id="click_aid_7_1" onclick="showWindow(this.id, this.href);doane(event);"> <img src="static/image/click/xianhua.gif" alt="" /><br />鲜花</a> </td> <td> <a href="https://www.zyx0.cn/home.php?mod=spacecp&ac=click&op=add&clickid=2&idtype=aid&id=7&hash=f366da93ceaa62a62943434ecf45f41b&handlekey=clickhandle" id="click_aid_7_2" onclick="showWindow(this.id, this.href);doane(event);"> <img src="static/image/click/woshou.gif" alt="" /><br />握手</a> </td> <td> <a href="https://www.zyx0.cn/home.php?mod=spacecp&ac=click&op=add&clickid=3&idtype=aid&id=7&hash=f366da93ceaa62a62943434ecf45f41b&handlekey=clickhandle" id="click_aid_7_3" onclick="showWindow(this.id, this.href);doane(event);"> <img src="static/image/click/leiren.gif" alt="" /><br />雷人</a> </td> <td> <a href="https://www.zyx0.cn/home.php?mod=spacecp&ac=click&op=add&clickid=4&idtype=aid&id=7&hash=f366da93ceaa62a62943434ecf45f41b&handlekey=clickhandle" id="click_aid_7_4" onclick="showWindow(this.id, this.href);doane(event);"> <img src="static/image/click/luguo.gif" alt="" /><br />路过</a> </td> <td> <a href="https://www.zyx0.cn/home.php?mod=spacecp&ac=click&op=add&clickid=5&idtype=aid&id=7&hash=f366da93ceaa62a62943434ecf45f41b&handlekey=clickhandle" id="click_aid_7_5" onclick="showWindow(this.id, this.href);doane(event);"> <img src="static/image/click/jidan.gif" alt="" /><br />鸡蛋</a> </td> </tr> </table> <script type="text/javascript"> function errorhandle_clickhandle(message, values) { if(values['id']) { showCreditPrompt(); show_click(values['idtype'], values['id'], values['clickid']); } } </script> </div> </div> </div> <div class="deanseperatedlines"></div> </div> <div class="deancaser_rr"> <div class="deanfabuxinxi"> <i></i> <div class="deanfbxxtop"> <h5><span>本文作者</span><em>2020-2-16 12:42</em><div class="clear"></div></h5> <a href="https://www.zyx0.cn/space-uid-1.html"> <div class="deantx"><img src="source/plugin/zpy_powered/cache/zpy_powered/cache_1.png"/></div> <div class="deanzzm">admin</div> </a> <div class="clear"></div> </div> <div class="deanfbxxbottom"> <span class="deansss">粉丝<em>4</em></span> <span class="deanviews">阅读<em>394</em></span> <span class="deanreplies">回复<em>0</em></span> <div class="clear"></div> </div> <div class="deanotersarts"> <h3><em></em><span>Ta的文章</span></h3> <div class="deanoarts"> <ul> <li> <a href="https://www.zyx0.cn/article-26-1.html" target="_blank">新站优化怎样做才能增加收录</a> <span>2020/02/16</span> </li> <li> <a href="https://www.zyx0.cn/article-25-1.html" target="_blank">网站如何做才能让排名越来越好</a> <span>2020/02/16</span> </li> <li> <a href="https://www.zyx0.cn/article-24-1.html" target="_blank">网站死链接应该如何处理</a> <span>2020/02/16</span> </li> <li> <a href="https://www.zyx0.cn/article-23-1.html" target="_blank">如何让网站快照快速更新</a> <span>2020/02/16</span> </li> <li> <a href="https://www.zyx0.cn/article-22-1.html" target="_blank">网站有收录没有排名的原因</a> <span>2020/02/16</span> </li> <li> <a href="https://www.zyx0.cn/article-21-1.html" target="_blank">网站优化site首页结果出现和网站无关内容是什么情况</a> <span>2020/02/16</span> </li> <li> <a href="https://www.zyx0.cn/article-20-1.html" target="_blank">新网站SEO长期不见效果的愿意是哪些</a> <span>2020/02/16</span> </li> <li> <a href="https://www.zyx0.cn/article-19-1.html" target="_blank">怎么降低改版对网站的影响</a> <span>2020/02/16</span> </li> <li> <a href="https://www.zyx0.cn/article-18-1.html" target="_blank">EO分享提高新网站收录的四种方法</a> <span>2020/02/16</span> </li> <li> <a href="https://www.zyx0.cn/article-17-1.html" target="_blank">您需要掌握的5个SEO基础知识(无需技术经验)</a> <span>2020/02/16</span> </li> <li> <a href="https://www.zyx0.cn/article-16-1.html" target="_blank">windows系统安装教程(一)</a> <span>2020/02/16</span> </li> <li> <a href="https://www.zyx0.cn/article-15-1.html" target="_blank">2019全新的微信域名防封技术,微信域名怎么避免防封,如何防拦截? ...</a> <span>2020/02/16</span> </li> <li> <a href="https://www.zyx0.cn/article-14-1.html" target="_blank">dz去除Powered by DouPHP版权的方法</a> <span>2020/02/16</span> </li> <li> <a href="https://www.zyx0.cn/article-13-1.html" target="_blank">Discuz!论坛教程之修改admin.php防止直接恶意访问</a> <span>2020/02/16</span> </li> <li> <a href="https://www.zyx0.cn/article-12-1.html" target="_blank">DiscuzX批量替换帖子标题、内容</a> <span>2020/02/16</span> </li> </ul> </div> </div> </div> <!--上一篇下一篇--> <div class="deanxgydbox"> <div class="deanupdowns"> <h5>上一篇:</h5> <a href="https://www.zyx0.cn/article-2-1.html">今天告诉大家搜索引擎运行工作原理是什么</a><em>发布时间:2020-02-16</em> <h5>下一篇:</h5> <a href="https://www.zyx0.cn/article-8-1.html">虚拟主机http强制跳转https方法</a><em>发布时间:2020-02-16</em> <div class="clear"></div> </div> </div> <!--关注我们--> <div class="deanguanzhu"> <!--[diy=deanguanzhu]--><div id="deanguanzhu" class="area"></div><!--[/diy]--> </div> </div> <div class="clear"></div> </div> <script type="text/javascript"> jQuery(function() { var elm = jQuery('.deanguanzhu'); var startPos = jQuery(elm).offset().top; jQuery.event.add(window, "scroll", function() { var p = jQuery(window).scrollTop(); jQuery(elm).css('position',((p) > startPos) ? 'fixed' : 'relative'); jQuery(elm).css('top',((p) > startPos) ? '75px' : ''); jQuery(elm).css('box-shadow',((p) > startPos) ? '0px 2px 4px 2px #eaeaea' : ''); jQuery(elm).css('z-index',((p) > startPos) ? '2' : ''); }); }); </script> <input type="hidden" id="portalview" value="1"></div> <link rel="stylesheet" type="text/css" href="source/plugin/hl_pendant/static/css/hook.css" /> <div id="footer"> <div id="ft" class="wp cl"> <div id="xinxi"> <em> 电话Phone:0000-6677889</em> <em> 邮箱E-mail:name@163.com </em> <span>COLOR论坛,最新鲜的信息分享平台!</span> </div> <div id="ftw"> <div id="flk" class="y"> <p> <a href="https://www.zyx0.cn/archiver/" >Archiver</a><span class="pipe">|</span><a href="https://www.zyx0.cn/forum.php?mobile=yes" >手机版</a><span class="pipe">|</span><a href="https://www.zyx0.cn/forum.php?mod=misc&action=showdarkroom" >小黑屋</a><span class="pipe">|</span><strong><a href="https://www.zyx0.cn/" target="_blank">资源侠论坛</a></strong> ( <a href="http://www.miitbeian.gov.cn/" target="_blank">粤ICP备19003768号</a> )<script type="text/javascript" src="plugin.php?id=aljrq:dantie"></script><script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?5f9f1aa50ba2a99e71395c55432f1cd2"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> <script type="text/javascript"> var url = window.location.href; if (url.indexOf("https") < 0) { url = url.replace("http:", "https:"); window.location.replace(url); } </script></p> <p class="xs1"> GMT+8, 2022-1-27 01:54<span id="debuginfo"> , Processed in 0.268239 second(s), 22 queries . </span> </p> </div> <div id="frt"> </div></div> </div> </div> <script src="home.php?mod=misc&ac=sendmail&rand=1643219674" type="text/javascript"></script> <div id="scrolltop"> <span hidefocus="true"><a title="返回顶部" onclick="window.scrollTo('0','0')" class="scrolltopa" ><b>返回顶部</b></a></span> </div> <script type="text/javascript">_attachEvent(window, 'scroll', function () { showTopLink(); });checkBlind();</script> </body> </html>