十年网站开发经验 + 多家企业客户 + 靠谱的建站团队
量身定制 + 运营维护+专业推广+无忧售后,网站问题一站解决
本篇内容介绍了“python怎么爬取视频”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
成都创新互联是一家从事企业网站建设、成都网站建设、网站制作、行业门户网站建设、网页设计制作的专业的建站公司,拥有经验丰富的网站建设工程师和网页设计人员,具备各种规模与类型网站建设的实力,在网站建设领域树立了自己独特的设计风格。自公司成立以来曾独立设计制作的站点上千多家。
思路
1.将所以题目的解析链接爬取出去单独存放到一个文件。
2.为了解决有些链接一次进不去必须中断程序再次开始,和存储图片思路一样,争取实现断点继续,
3.但是写入文件和保存图片还是不一样,针对面临的情况,初步解决想法为每抽取一条链接的解析,就删掉这个链接,用列表存储从链接文件中读取的链接
因为科目四有的题目包含动图,要爬取的网站是做成mov格式的短视频
例如:
增加获取视频链接
系列一获取图片的方法是在获取选项、答案的基础上再次传到BeautifulSoup对象,然后再次提取img标签,如果某题没有图片,提取的则是一个空值,此处提取img和video标签。如果某题没有图片或视频,提取的则是一个空值。只需改一句代码
img = soup.find_all(['img','video'])获取图片或动图后缀 系列一中为了方便直接在文件名后面加的字符串形式.png后缀,但是现在要解决后缀不一致(写代码尽可能还是不要偷懒…)
解决代码:if img: for im in img: src = im.get('src') suffix = src.split('.')[3] filename = str(i) + '.' + suffix如果此题有图片或动图,则把这个图的链接通过’.’进行分割。最后的元素则是后缀
争取实现断点继续 不知道为什么程序会暂停不动,模仿浏览器,捕获异常都试了,依然不行,所以我尽可能的实现断点继续。
每个图片对应一个链接,难免有一个链接卡住(我猜测的)
解决办法 :
在我们得到链接,并生成文件名后,先不去打开这个这个链接,先根据文件名判断这个图片是否文件夹中已经包含,如果包含扔掉这个链接,去继续下一个链接if img: for im in img: src = im.get('src') suffix = src.split('.')[3] filename = str(i) + '.' + suffix if os.path.exists('picture/'+filename): break saveImg(im.get('src'),filename)“python怎么爬取视频”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站,小编将为大家输出更多高质量的实用文章!
网页名称:python怎么爬取视频
URL标题:http://6mz.cn/article/pdddip.html