2020-03-28 丨 浏览量:855 丨 发布:admin
很多客户都不懂使用文章采集这个功能,今天我就过来分享一下文章采集功能怎么使用吧。
先有一个目录站,并找到你要采集的文章内容:
我们的目标站是www.lvsemulu.cn,需要采集的内容是:http://www.lvsemulu.cn/news/fangchan.html这个页面,但我们要找到列表,那么就是查看它的分页,找到它分页的规则:
从上图片中可以看到,它分页的规则是:http://www.lvsemulu.cn/news/fangchan.html?page=2,不是所有的网站分页规则都一样的,所以你们要采集的网站一定要找到那个规则,这个分页规则,我们就找到我们后台增加采集的地方,填写进去,如:填写的时候是这样子的http://www.lvsemulu.cn/news/fangchan.html?page=(*),而这里页码使用(*)做为通配符。
而上面的的“页码从第几页到几页”你自己选择。
而再到“页面编码”,这个采集的目标网站是什么编码你们就选择使用什么编码就行。
重点来了,要采集列表的数据,那么我们就要找到这个列表,并对应的查看代码,找到列表的类,如:
下面我们切换到代码中看下:
看到以上代码,然后填写我们的采集的代码
这个“列表区域”是这块.article-list-new li就是类article-list-new下的li标签, 而“链接规则就是.article-list-new li里面的a标签”,而“朴全url”就是要把这个原来的“/news/760.html”网址加个域名,要是人家本来就带域名了,你就不需要增加了。
“图片规则”,就是综例图片的规则,这个你对应的填写就先了,就跟“连接规格一样”。
下面是采集连接点击进去的文章详细页面:
先看上面这个图片,再看下面这个代码对照一下
以上标签的规则是:.article-info里面的h2标签,所以我们就写成:.article-info h2这样子
下面我们再过来看看内容的
以上这个就是内容,内容是在.article-content类下面的div中,那么我们直接写成:.article-content div,这样子就行了,很简单,其它的规则也是这么填写的,而内容中需要过率的标签可以在“需过滤的标签”中填写就行了,
“图片补全”这个就跟网址补全是一个意思的,而下面的那个“下载内容图片”需要下载图片到本地你就下选择下载就行了。