vlambda博客
学习文章列表

必备工具:使用Pentaho进行数据迁移

pentaho下载地址
https://sourceforge.net/projects/pentaho/files/Data%20Integration/

最早使用pentaho是在2012年,用于数据定时跑批,离线统计分析。最近,要做数据库迁移(oracle->mysql),pentaho当然是首选工具了。本文简单记录分享使用pentaho两个数据源之间表迁移。

1.pentaho解压缩,win下点击 Spoon.bat就可以启动了。
2.新建数据库连接,有了数据库连接就可以在多个数据源之间进行数据迁移了,注意这里 把数据库连接设置为共享的(右击数据库连接设置共享即可),否则每次都提示选择配置数据库连接。
3.新建oracle数据库连接,正常的jdbc连接,比较简单:

必备工具:使用Pentaho进行数据迁移

4.新建mysql数据库连接一样,注意驱动包,如果提示找不到驱动类: org.gjt.mm.mysql.Driver,可以检查下驱动包是否包含这个驱动类。将正确的驱动包添加到目录: ~\data-integration\lib 下。

必备工具:使用Pentaho进行数据迁移

5.使用jndi配置数据源:

目录:~\data-integration\simple-jndi拷贝一份jdbc.properties文件,添加相关的数据库连接配置,如myslq配置参考如下:

mysql/type=javax.sql.DataSource mysql/driver=com.mysql.cj.jdbc.Drivermysql/url=jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=utf8&useSSL=false&serverTimezone=GMTmysql/user=testmysql/password=test

6.新建转换,进行表输入表输出的转换,双击表输入进行配置,选择数据库连接,选择要执行的查询SQL。同理配置表输出,可以编辑相关配置,字段裁剪,目标表如果不存在可以编辑建表语句(调整字段,字段类型)。没有问题将表输入连接表输出即可(shift+鼠标左键)。最后运行这个转换即可,就可以原数据源数据迁移到目标数据源了。

小结:

这里只是介绍了pentaho最简单的示例,pentaho几乎拥有你能想到的所有数据ETL功能,自动job,导入导出,发送邮件,脚本,数据分析等等,堪称必备工具,需要的童鞋可以尝试下。