php的简单数据采集代码 php爬虫数据采集

php采集大数据的方案

1、建议你读写数据和下载图片分开，各用不同的进程完成。

创新互联建站专注为客户提供全方位的互联网综合服务，包含不限于网站制作、成都做网站、莱山网络推广、小程序开发、莱山网络营销、莱山企业策划、莱山品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们最大的嘉奖；创新互联建站为所有大学生创业者提供莱山建站搭建服务，24小时服务热线：18982081108，官方网址：www.cdcxhl.com

比如说，取数据用get-data.php，下载图片用get-image.php。

2、多进程的话，php可以简单的用pcntl_fork()。这样可以并发多个子进程。

但是我不建议你用fork，我建议你安装一个gearman worker。这样你要并发几个，就启几个worker，写代码简单，根本不用在代码里考虑thread啊，process等等。

3、综上，解决方案这样：

（1）安装gearman worker。

（2）写一个get-data.php，在crontab里设置它每5分钟执行一次，只负责读数据，然后把读回来的数据一条一条的扔到 gearman worker的队列里；

然后再写一个处理数据的脚本作为worker，例如叫process-data.php，这个脚本常驻内存。它作为worker从geraman 队列里读出一条一条的数据，然后跟你的数据库老数据比较，进行你的业务逻辑。如果你要10个并发，那就启动10个process-data.php好了。处理完后，如果图片地址有变动需要下载图片，就把图片地址扔到 gearman worker的另一个队列里。

（3）再写一个download-data.php，作为下载图片的worker，同样，你启动10个20个并发随便你。这个进程也常驻内存运行，从gearman worker的图片数据队列里取数据出来，下载图片

4、常驻进程的话，就是在代码里写个while(true)死循环，让它一直运行好了。如果怕内存泄露啥的，你可以每循环10万次退出一下。然后在crontab里设置，每分钟检查一下进程有没有启动，比如说这样启动3个process-data worker进程：

* * * * * flock -xn /tmp/process-data.1.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.2.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.3.lock -c '/usr/bin/php /process-data.php /dev/null 21'

不知道你明白了没有

php采集代码是什么?

采集就是把目标网站的内容通过php代码存储到自己的网站数据库中，从而把别人的变成自己的。

这样就可以省去很多自己发布信息的时间，非常快速。

但是只建议在网站建立之初进行采集，因为如果采集过多会被搜索引擎屏蔽

怎么用php采集网站数据

简单的分了几个步骤：

1、确定采集目标

2、获取目标远程页面内容（curl、file_get_contents）

3、分析页面html源码，正则匹配你需要的内容（preg_match、preg_match_all），这一步最为重要，不同页面正则匹配规则不一样

4、入库

php 百度知道数据采集

问题其实不难，自己都能写。给你几个思路吧：

1.在百度知道中，输入linux，然后会出现列表。复制浏览器地址栏内容。

然后翻页，在复制地址栏内容，看看有什么不同，不同之处，就是你要循环分页的i值。

当然这个是笨方法。

2.使用php的file或者file_get_contents函数，获取链接URL的内容。

3.通过php正则表达式，获取你需要的3个字段内容。

4.写入数据库。

需要注意的是，百度知道有可能做了防抓取的功能，你刚一抓几个页面，可能会被禁止。

建议也就抓10页数据。

其实不难，你肯定写的出来。还有，网上应该有很多抓取工具，你找找看，然后将抓下来的数据

在做分析。写入数据库。

PHP采集代码实例

?php

function

preg_substr($start,

$end,

$str)

正则截取函数

{

$temp

preg_split($start,

$str);

$content

preg_split($end,

$temp[1]);

return

$content[0];

}

function

str_substr($start,

$end,

$str)

字符串截取函数

{

$temp

explode($start,

$str,

2);

$content

explode($end,

$temp[1],

2);

return

$content[0];

}

----------------

使用实例

----------------

$str

iconv("UTF-8",

"GB2312",

file_get_contents(""));

echo

('标题:

str_substr("title",

"/title",

$str));

通过字符串提取标题

echo

('作者:

preg_substr("/userid=d+"/",

"///",

$str));

通过正则提取作者

echo

('内容:

str_substr('div

class="content"',

'/div',

$str));

//内容当然不可以少

文章标题：php的简单数据采集代码 php爬虫数据采集
转载注明：http://6mz.cn/article/dooiejc.html

网站建设知识

php的简单数据采集代码 php爬虫数据采集

php采集大数据的方案

php采集代码是什么?

怎么用php采集网站数据

php 百度知道数据采集

PHP采集代码实例

其他资讯

网站建设知识

php的简单数据采集代码 php爬虫数据采集

php采集大数据的方案

php采集代码是什么?

怎么用php采集网站数据

php 百度 知道数据采集

PHP采集代码实例

其他资讯

php 百度知道数据采集