十年网站开发经验 + 多家企业客户 + 靠谱的建站团队
量身定制 + 运营维护+专业推广+无忧售后,网站问题一站解决
采集列表页只要是为了获取对应内容页的链接
创新互联服务项目包括遂平网站建设、遂平网站制作、遂平网页制作以及遂平网络营销策划等。多年来,我们专注于互联网行业,利用自身积累的技术优势、行业经验、深度合作伙伴关系等,向广大中小型企业、政府机构等提供互联网行业的解决方案,遂平网站推广取得了明显的社会效益与经济效益。目前,我们服务的客户以成都为中心已经辐射到遂平省份的部分城市,未来相信会继续扩大服务区域并继续获得客户的支持与信任!
获取到内容页链接后 然后使用正则匹配 你要采集的信息
采集原理 可以参考(获取列表页的所有图片)
添加节点:
选择要增加采集的栏目:
进入增加节点表单:
在节点名称框里起个名字,然后把要采集的新浪各地新闻列表地址copy过来:
下来发现好多选项,如“采集页面地址方式二,内容页地址前缀...”先不要理他,后面再一一详解,直接拉到 “信息链接区域正则”这里:
6
这里是设置采集的列表信息链接区域正则,我们点击查看新浪各地新闻列表“源文件”:
7
把源文件代码copy到Dreamweaver里,在Dreamweaver里选定要采集的信息链接区域:
这个要在火车头里面设置,因为你的火车头发布模块已经有了 内容简介标签,如果你要帝国cms自己提取内容简介, 那火车头里的 内容标签 就要采集内容是空的。那发上去就没有内容了,帝国cms就动提取了。 第二就是在火车头 内容标签 采集好 内容简...