十年网站开发经验 + 多家企业客户 + 靠谱的建站团队
量身定制 + 运营维护+专业推广+无忧售后,网站问题一站解决
近期有一个行业项目,需要把较大数据从文件中导入到oracle。
让客户满意是我们工作的目标,不断超越客户的期望值来自于我们对这个行业的热爱。我们立志把好的技术通过有效、简单的方式提供给客户,将通过不懈努力成为客户在信息化领域值得信任、有价值的长期合作伙伴,公司提供的服务项目有:国际域名空间、虚拟主机、营销软件、网站建设、大悟网站维护、网站推广。
我们使用oracle的sqlldr导入数据,当数据量较大时导入的时间过长:导入一张8千万条记录的表需要2.5个小时,太慢了。
后来采用了sqlldr并行导入的方式将时间缩短到了0.8小时,这里记录一下使用过程。
将要导入的数据文件拆分成10份,然后使用多任务并行执行对应数据份数的sqlldr命令(当然也就需要同样数量的control文件),多个客户端同时往数据库中导入数据。
这里有两点比较重要,1、如何自动生成若干条sqlldr命令和若干个control文件(一个个写有点累);2、如何同时并行执行(一个个去执行就更累了)。
这里借助了集算器这个工具完成自动生成命令和控制文件,再并行执行。
负责任务控制,任务分配、调用子程序。
生成具体control文件和sqlldr命令,并执行导入命令完成数据加载
【注】这里使用了集算器的并行机制来同时执行多个sqlldr命令;使用system函数调用系统命令。
由于是程序控制的并行任务,所以可以根据实际需要设置并行任务数,将机器性能发挥到最优。
下图记录了不同并行数情况下sqlldr导入速度,总体是呈线性增长的,并发任务越多,导入速度越快。