python中怎么实现分布式抓取网页

python中怎么实现分布式抓取网页，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。

成都创新互联公司专注为客户提供全方位的互联网综合服务，包含不限于成都做网站、网站制作、安吉网络推广、重庆小程序开发、安吉网络营销、安吉企业策划、安吉品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们最大的嘉奖；成都创新互联公司为所有大学生创业者提供安吉建站搭建服务，24小时服务热线：13518219792，官方网址：www.cdcxhl.com

[python]
view plaincopy

'''''
Created on 2010-9-15
@author: chenggong
'''
import urllib2
import re
import socket
DEBUG = 0
'''''
工具类
'''
class Tools():
#log函数
@staticmethod
def writelog(level,info,notify=False):
if DEBUG == 0:
try:
print "["+level+"]"+info.decode('UTF-8').encode('GBK')
except:
print "["+level+"]"+info.encode('GBK')
else:
print "["+level+"]"+info
#if notify:
# print "[notify]报告管理员!!"
#转unicode
@staticmethod
def toUnicode(s,charset):
if( charset == "" ):
return s
else:
try:
u = unicode( s, charset )
except:
u = ""
return u
#正则抓取
#@param single 是否只抓取一个
@staticmethod
def getFromPatten(patten,src,single=False):
rst = "";
p = re.compile(patten,re.S)
all = p.findall(src)
for matcher in all:
rst += matcher + " "
if( single ):
break
return rst.strip()
'''''
网页内容爬虫
'''
class PageGripper():
URL_OPEN_TIMEOUT = 10 #网页超时时间
MAX_RETRY = 3 #最大重试次数
def __init__(self):
socket.setdefaulttimeout(self.URL_OPEN_TIMEOUT)
#获取字符集
def getCharset(self,s):
rst = Tools.getFromPatten(u'charset=(.*?)"',s,True)
if rst != "":
if rst == "utf8":
rst = "utf-8"
return rst
#尝试获取页面
def downloadUrl(self,url):
charset = ""
page = ""
retry = 0
while True:
try:
fp = urllib2.urlopen(url)
break
except urllib2.HTTPError,e: #状态错误
Tools.writelog('error','HTTP状态错误 code='+e.code)
raise urllib2.HTTPError
except urllib2.URLError,e: #网络错误超时
Tools.writelog('warn','页面访问超时,重试..')
retry+=1
if( retry > self.MAX_RETRY ):
Tools.writelog('warn','超过最大重试次数,放弃')
raise urllib2.URLError
while True:
line = fp.readline()
if charset == "":
charset = self.getCharset(line)
if not line:
break
page += Tools.toUnicode(line,charset)
fp.close()
return page
#获取页面
def getPageInfo(self,url):
Tools.writelog( "info","开始抓取网页,url= "+url)
info = ""
try:
info = self.downloadUrl(url)
except:
raise
Tools.writelog("debug","网页抓取成功")
return info
'''''
内容提取类
'''
class InfoGripper():
pageGripper = PageGripper()
def __init__(self):
Tools.writelog('debug',"爬虫启动")
#抓取标题
def griptitle(self,data):
title = Tools.getFromPatten(u'box2t sp">
(.*?)
', data, True)
if title == "":
title = Tools.getFromPatten(u'(.*?)[-<]',data,True) </li><li> return title.strip() </li><li></li><li> #抓取频道</li><li> def gripchannel(self,data): </li><li> zone = Tools.getFromPatten(u'频道：(.*?)',data,True) </li><li> channel = Tools.getFromPatten(u'<a.*?>(.*?)</a>',zone,True) </li><li> return channel </li><li></li><li> #抓取标签</li><li> def griptag(self,data): </li><li> zone = Tools.getFromPatten(u'标签：(.*?)</[^a].*>',data,True); </li><li> rst = Tools.getFromPatten(u'>(.*?)</a>',zone,False); </li><li> return rst </li><li></li><li> #抓取观看次数</li><li> def gripviews(self,data): </li><li> rst = Tools.getFromPatten(u'已经有(.*?)次观看',data); </li><li> return rst </li><li></li><li> #抓取发布时间</li><li> def griptime(self,data): </li><li> rst = Tools.getFromPatten(u'在(.*?)发布',data,True) </li><li> return rst </li><li></li><li> #抓取发布者</li><li> def gripuser(self,data): </li><li> rst = Tools.getFromPatten(u'title="点击进入(.*?)的用户空间"',data,True) </li><li> return rst </li><li></li><li> #获取页面字符集</li><li> def getPageCharset(self,data): </li><li> charset = Tools.getFromPatten(u'charset=(.*?)"',data,True) </li><li></li><li> if( charset == "utf8" ): </li><li> charset = "utf-8"</li><li> return charset </li><li></li><li> #获取CC相关数据</li><li> def getCCData(self,data): </li><li></li><li> zone = Tools.getFromPatten(u'SWFObject(.*?)</script>',data,True) </li><li></li><li> #判断是否使用bokecc播放</li><li> isFromBokeCC = re.match('.*bokecc.com.*', zone) </li><li> if( not isFromBokeCC ): </li><li> return "","" </li><li></li><li> ccSiteId = Tools.getFromPatten(u'siteid=(.*?)[&,"]',zone,True) </li><li> ccVid = Tools.getFromPatten(u'vid=(.*?)[&,"]',zone,True) </li><li> return ccSiteId,ccVid </li><li></li><li> #获取站内vid</li><li> def gripVideoId(self,data): </li><li> vid = Tools.getFromPatten(u'var vid = "(.*?)"',data,True) </li><li> return vid </li><li></li><li> #获取点击量</li><li> def gripViewsAjax(self,vid,url,basedir): </li><li> host = Tools.getFromPatten(u'http://(.*?)/',url,True) </li><li> ajaxAddr = "http://" + host + basedir + "/index.php/ajax/video_statistic/" + vid </li><li> '''''</li><li> try:</li><li> content = self.pageGripper.getPageInfo(ajaxAddr)</li><li> except Exception,e:</li><li> print e</li><li> Tools.writelog ("error", ajaxAddr+u"抓取失败")</li><li> return "error"</li><li> '''</li><li> Tools.writelog('debug', u"开始获取点击量,url="+ajaxAddr) </li><li> while True: </li><li> try: </li><li> fp = urllib2.urlopen(ajaxAddr) </li><li> break</li><li> except urllib2.HTTPError,e: #状态错误</li><li> Tools.writelog('error','HTTP状态错误 code='+"%d"%e.code) </li><li> return "" </li><li> except urllib2.URLError,e: #网络错误超时</li><li> Tools.writelog('warn','页面访问超时,重试..') </li><li> retry+=1</li><li> if( retry > self.MAX_RETRY ): </li><li> Tools.writelog('warn','超过最大重试次数,放弃') </li><li> return "" </li><li> content = fp.read() </li><li> fp.close() </li><li> views = Tools.getFromPatten(u'"viewcount":(.*?),',content,True) </li><li> views = views.replace('"','') </li><li> return views </li><li></li><li> #从网页内容中爬取点击量 </li><li> def gripViewsFromData(self,data): </li><li> views = Tools.getFromPatten(u'已经有<.*?>(.*?)<.*?>次观看',data,True) </li><li> return views </li><li></li><li> def gripBaseDir(self,data): </li><li> dir = Tools.getFromPatten(u"base_dir = '(.*?)'",data,True) </li><li> return dir </li><li></li><li> #抓取数据</li><li> def gripinfo(self,url): </li><li></li><li> try: </li><li> data = self.pageGripper.getPageInfo(url) </li><li> except: </li><li> Tools.writelog ("error", url+" 抓取失败") </li><li> raise</li><li></li><li> Tools.writelog('info','开始内容匹配') </li><li> rst = {} </li><li> rst['title'] = self.griptitle(data) </li><li> rst['channel'] = self.gripchannel(data) </li><li> rst['tag'] = self.griptag(data) </li><li> rst['release'] = self.griptime(data) </li><li> rst['user'] = self.gripuser(data) </li><li> ccdata = self.getCCData(data) </li><li> rst['ccsiteId'] = ccdata[0] </li><li> rst['ccVid'] = ccdata[1] </li><li> views = self.gripViewsFromData(data) </li><li> if views =="" or not views: </li><li> vid = self.gripVideoId(data) </li><li> basedir = self.gripBaseDir(data) </li><li> views = self.gripViewsAjax(vid,url,basedir) </li><li> if( views == "" ): </li><li> views = "error"</li><li> if( views == "error"): </li><li> Tools.writelog("error","获取观看次数失败") </li><li> Tools.writelog("debug","点击量:"+views) </li><li> rst['views'] = views </li><li> Tools.writelog('debug','title=%s,channel=%s,tag=%s'%(rst['title'],rst['channel'],rst['tag'])) </li><li> return rst </li><li></li><li>'''''</li><li>单元测试</li><li>'''</li><li>if __name__ == '__main__': </li><li> list = [ </li><li> 'http://008yx.com/xbsp/index.php/video/index/3138', </li><li> 'http://vblog.xwhb.com/index.php/video/index/4067', </li><li> 'http://demo.ccvms.bokecc.com/index.php/video/index/3968', </li><li> 'http://vlog.cnhubei.com/wuhan/20100912_56145.html', </li><li> 'http://vlog.cnhubei.com/html/js/30271.html', </li><li> 'http://www.ddvtv.com/index.php/video/index/15', </li><li> 'http://boke.2500sz.com/index.php/video/index/60605', </li><li> 'http://video.zgkqw.com/index.php/video/index/334', </li><li> 'http://yule.hitmv.com/html/joke/27041.html', </li><li> 'http://www.ddvtv.com/index.php/video/index/11', </li><li> 'http://www.zgnyyy.com/index.php/video/index/700', </li><li> 'http://www.kdianshi.com/index.php/video/index/5330', </li><li> 'http://www.aoyatv.com/index.php/video/index/127', </li><li> 'http://v.ourracing.com/html/channel2/64.html', </li><li> 'http://v.zheye.net/index.php/video/index/93', </li><li> 'http://vblog.thmz.com/index.php/video/index/7616', </li><li> 'http://kdianshi.com/index.php/video/index/5330', </li><li> 'http://tv.seeyoueveryday.com/index.php/video/index/95146', </li><li> 'http://sp.zgyangzhi.com/html/ji/2.html', </li><li> 'http://www.xjapan.cc/index.php/video/index/146', </li><li> 'http://www.jojy.cn/vod/index.php/video/index/399', </li><li> 'http://v.cyzone.cn/index.php/video/index/99', </li><li> ] </li><li></li><li> list1 = ['http://192.168.25.7:8079/vinfoant/versionasdfdf'] </li><li></li><li> infoGripper = InfoGripper() </li><li> for url in list: </li><li> infoGripper.gripinfo(url) </li><li> del infoGripper </li></ol>WEB服务及任务调度[python] view plaincopy<ol><li>'''''</li><li>Created on 2010-9-15</li><li></li><li>@author: chenggong</li><li>'''</li><li># -*- coding: utf-8 -*-</li><li>import string,cgi,time </li><li>from os import curdir,sep </li><li>from BaseHTTPServer import BaseHTTPRequestHandler,HTTPServer </li><li>from InfoGripper import * </li><li>import re </li><li>import MySQLdb </li><li>import time </li><li>import threading </li><li>import urllib </li><li>import urllib2 </li><li></li><li>PORT = 8079</li><li>VERSION = 0.1</li><li>DBCHARSET = "utf8"</li><li>PARAMS = [ </li><li> 'callback', </li><li> 'sessionId', </li><li> 'retry', </li><li> 'retryInterval', </li><li> 'dbhost', </li><li> 'dbport', </li><li> 'db', </li><li> 'dbuser', </li><li> 'dbpass', </li><li> 'videoId'</li><li> ] </li><li></li><li>DBMAP = ['video_id', </li><li> 'ccsiteid', </li><li> 'ccvid', </li><li> 'desc_url', </li><li> 'site_id', </li><li> 'title', </li><li> 'post_time', </li><li> 'author', </li><li> 'elapse', </li><li> 'channel', </li><li> 'tags', </li><li> 'create_time', </li><li> 'check_time', </li><li> 'status'] </li><li></li><li>'''''</li><li>ERROR CODE定义</li><li>'''</li><li>ERR_OK = 0</li><li>ERR_PARAM = 1</li><li>ERR_HTTP_TIMEOUT = 5</li><li>ERR_HTTP_STATUS = 6</li><li>ERR_DB_CONNECT_FAIL = 8</li><li>ERR_DB_SQL_FAIL = 9</li><li>ERR_GRIPVIEW = 11</li><li>ERR_UNKNOW = 12</li><li></li><li>'''''</li><li>数据库适配器</li><li>'''</li><li>class DBAdapter(object): </li><li></li><li> def __init__(self): </li><li> self.param = {'ip':'', </li><li> 'port':0, </li><li> 'user':'', </li><li> 'pw':'', </li><li> 'db':''} </li><li> self.connect_once = False #是否连接过数据库</li><li></li><li> '''''</li><li> 创建/更新数据库连接池</li><li> '''</li><li> def connect(self,ip,port,user,pw,db): </li><li> if( ip != self.param['ip'] or</li><li> port != self.param['port'] or</li><li> user != self.param['user'] or</li><li> pw != self.param['pw'] or</li><li> db != self.param['db']): </li><li> Tools.writelog('info','更换数据库连接池,ip='+ip+',port='+port+',user='+user+',pw='+pw+',db='+db) </li><li> try: </li><li> if self.connect_once == True: #释放上次连接</li><li> self.cur.close() </li><li> self.conn.close() </li><li> self.conn=MySQLdb.connect(user=user,passwd=pw,db=db,host=ip,port=int(port)) </li><li> self.conn.set_character_set(DBCHARSET) </li><li> self.connect_once = True</li><li> self.cur=self.conn.cursor(MySQLdb.cursors.Cursor) </li><li> self.param['ip'] = ip </li><li> self.param['port'] = port </li><li> self.param['user'] = user </li><li> self.param['pw'] = pw </li><li> self.param['db'] = db </li><li> except: </li><li> Tools.writelog('error',u'数据库连接失败',True) </li><li> raise</li><li> else: </li><li> Tools.writelog('info',u'数据库连接成功') </li><li></li><li> '''''</li><li> 执行SQL语句</li><li> '''</li><li> def execute(self,sql): </li><li> Tools.writelog('debug',u'执行SQL: '+sql) </li><li> try: </li><li> self.cur.execute(sql) </li><li> except: </li><li> Tools.writelog('error',u'SQL执行错误:'+sql) </li><li> raise</li><li></li><li> '''''</li><li> 查询数据库</li><li> '''</li><li> def query(self,sql): </li><li> row = {} </li><li> self.execute(sql) </li><li> row=self.cur.fetchall() </li><li> return row </li><li></li><li> '''''</li><li> 视频错误</li><li> '''</li><li> def updateErr(self,videoId): </li><li> nowtime = time.strftime('%Y-%m-%d-%H-%M-%S',time.localtime(time.time())) </li><li> sql = "UPDATE videos SET "</li><li> sql += "check_time='" + nowtime +"',"</li><li> sql += "status=-1 "</li><li> sql += "WHERE video_id="+videoId </li><li> self.execute(sql) </li><li> self.conn.commit() </li><li></li><li> '''''</li><li> 更新查询结果</li><li> '''</li><li> def update(self,obj,videoId,isUpdateTitle=True): </li><li></li><li> Tools.writelog('debug','开始更新数据库') </li><li> try: </li><li> #更新video表</li><li> sql = "UPDATE videos SET "</li><li> if(obj['ccsiteId'] !="" ): </li><li> sql += "ccsiteid='" + obj['ccsiteId'] + "'," </li><li> if(obj['ccVid'] != "" ): </li><li> sql += "ccvid='" + obj['ccVid'] + "'," </li><li> if isUpdateTitle: </li><li> sql += "title='" + obj['title'] + "'," </li><li> sql += "post_time='" + obj['release'] + "'," </li><li> sql += "author='" + obj['user'] + "'," </li><li> sql += "channel='" + obj['channel'] + "'," </li><li> sql += "tags='" + obj['tag'] + "'," </li><li> nowtime = time.strftime('%Y-%m-%d-%H-%M-%S',time.localtime(time.time())) </li><li> sql += "check_time='" + nowtime +"',"</li><li> sql += "status=0 "</li><li> sql += "WHERE video_id="+videoId </li><li></li><li> self.execute(sql) </li><li></li><li> #更新count表</li><li> if( obj['views'] != 'error' ): </li><li> nowdate = time.strftime('%Y-%m-%d',time.localtime(time.time())) </li><li> sql = "SELECT * FROM counts WHERE "</li><li> sql += "date = '" + nowdate + "' and video_id=" + videoId </li><li> rst = self.query(sql) </li><li> if len(rst) > 0:#如果当天已有记录，则更新</li><li> sql = "UPDATE counts SET count="+obj['views'] </li><li> sql +=" WHERE video_id=" + videoId + " AND date='" + nowdate+ "'"</li><li> else:#否则插入</li><li> sql = "INSERT INTO counts VALUES"</li><li> sql += "(null," +videoId+",'"+nowdate+"',"+obj['views'] + ")"</li><li> self.execute(sql) </li><li> 文章题目：python中怎么实现分布式抓取网页 网站网址：<a href="http://6mz.cn/article/ijgchi.html">http://6mz.cn/article/ijgchi.html</a> </div> </div> <div class="other"> <h3>其他资讯</h3> <ul> <li> <a href="/article/cjgsee.html">【IDCC2020上海站】UCloud优刻得王凯：新基建助力在线经济</a> </li><li> <a href="/article/cjgsec.html">直播须久久为功方能服务新个体经济</a> </li><li> <a href="/article/cjgcho.html">卖货郎回应资金链断裂和欠款等言论</a> </li><li> <a href="/article/cjgsei.html">公众号重大更新！内测新功能「问答互动」</a> </li><li> <a href="/article/cjgchd.html">建站还能采集内容吗如何正确采集</a> </li> </ul> </div> </div> <footer> <div class="message"> <div class="mess container"> 免费获取网站建设与品牌策划方案报价 *主要业务范围包括：高端网站建设，集团网站建设(网站建设网站制作)找网站建设公司就上快上网。 <form action=""> <input type="text" class="ipt1" placeholder="联系人"> <input type="text" class="ipt2" placeholder="联系电话"> <textarea name="" id="" placeholder="内容描述：描述您的需求，如网站、微信、电商、APP等。"></textarea> <a href="">提交需求</a> </form> </div> </div> <div class="footA"> <div class="footAs container"> <ul> <h3>联系我们</h3> 028-86922220 <li>手机：13518219792</li> <li>地址：成都市太升南路288号锦天国际A幢1002号</li> <li class="hr1"></li> <li>24小时服务热线：400-028-6601</li> </ul> <ul> <h3>网站建设服务</h3> <li>网页设计</li> <li>网站制作</li> <li>网站开发</li> </ul> <ul> <h3>网站推广服务</h3> <li>营销网站建设</li> <li>百度快速排名</li> <li>整站网站推广</li> </ul> <ul> <h3>网站运维服务</h3> <li>基础维护</li> <li>网站改版</li> <li>网站维护</li> </ul> <ul> <h3>FOLLOW US</h3> <li class="hr2"></li> <li> <dd class="fl"><img src="/Public/Home/img/ewm.png" alt="">微信二维码</dd> <dd class="fr"><img src="/Public/Home/img/ewm.png" alt="">微信二维码</dd> </li> </ul> </div> <div class="link container"> 友情链接： <a href="https://www.cdxwcx.com/city/yaan/" title="雅安做网站" target="_blank">雅安做网站</a> <a href="http://www.cdhuace.com/faguangzi/xsz.html" title="广告吸塑字" target="_blank">广告吸塑字</a> <a href="http://www.hbruida.cn/" title="宜宾网站建设" target="_blank">宜宾网站建设</a> <a href="http://chengdu.cdcxhl.cn/seo/" title="营销网站建设" target="_blank">营销网站建设</a> <a href="http://www.cdxwcx.cn/tuoguan/xibuxinxi.html" title="西信服务器托管" target="_blank">西信服务器托管</a> <a href="http://www.cxjianzhan.cn/fwxm/pinpai.html" title="成都品牌官网设计公司" target="_blank">成都品牌官网设计公司</a> <a href="http://www.cdkjz.cn/wangzhan/keyseo/" title="成都关键词SEO优化" target="_blank">成都关键词SEO优化</a> <a href="https://www.cdxwcx.com/wangzhan/dingzhi.html" title="定制网站" target="_blank">定制网站</a> <a href="https://www.scvps.cn/" title="租用服务器" target="_blank">租用服务器</a> <a href="http://www.cdhuace.com/biaoshi.html" title="成都标识标牌设计制作" target="_blank">成都标识标牌设计制作</a> </div> </div> <div class="footB"> <div class="container"> <div class="fl"> Copyright © 2022 成都快上网科技有限公司成都网站建设公司-选网站建设公司快上网！国内专业的网站制作公司！ </div> <div class="fr"> All Rights Reserved 版权所有 <a href="https://beian.miit.gov.cn/" target="_blank" rel="nofollow">蜀ICP备19037934号-11</a> </div> </div> </div> </footer> </body> </html> <script> $(".con img").each(function(){ var src = $(this).attr("src"); //获取图片地址 var str=new RegExp("http"); var result=str.test(src); if(result==false){ var url = "https://www.cdcxhl.com"+src; //绝对路径 $(this).attr("src",url); } }); window.onload=function(){ document.oncontextmenu=function(){ return false; } } </script>

网站建设知识

python中怎么实现分布式抓取网页

(.*?)