我们已经有安装Apache Hive的Linux服务器集群,它可以连接到一个Oracle RDS数据库,需要在该Linux服务器上安装配置sqoop,然后将Oracle RDS数据库中所有的表数据复制到Hive。
为了将本地Oracle数据库中的所有表数据复制到Apache Hive Linux服务器集群中,您可以遵循以下详细步骤:
第一步:安装和配置Sqoop
1. 下载并安装Sqoop
您可以从Apache Sqoop官方网站下载最新版本的Sqoop。
wget https://downloads.apache.org/sqoop/1.4.8/sqoop-1.4.8.bin__hadoop-2.6.0-cdh5.7.0.tar.gz
2. 解压Sqoop包
tar -xzvf sqoop-1.4.8.bin__hadoop-2.6.0-cdh5.7.0.tar.gz -C /opt/
sudo mv /opt/sqoop-1.4.8.bin__hadoop-2.6.0-cdh5.7.0 /usr/local/sqoop
3. 配置Sqoop环境变量
编辑~/.bashrc
或者/etc/profile.d/sqoop.sh
文件,添加Sqoop路径:
echo 'export SQOOP_HOME=/usr/local/sqoop' >> ~/.bashrc
echo 'export PATH=$PATH:$SQOOP_HOME/bin' >> ~/.bashrc
source ~/.bashrc
4. 下载Oracle JDBC驱动
由于Sqoop需要通过JDBC连接Oracle数据库,因此请确保已下载适用于Oracle数据库的JDBC驱动(通常是从Oracle官方提供的ojdbc*.jar)。将其放置在Sqoop的lib目录下:
cp ojdbc8.jar $SQOOP_HOME/lib/
第二步:测试Sqoop是否能成功连接到Oracle及Hive
测试与Oracle的连接性
尝试列出Oracle数据库的所有表名以确认Sqoop能否正常连接到Oracle数据库。
sqoop list-tables \
--connect jdbc:oracle:thin:@//your_oracle_host:port/service_name \
--username your_username \
--password-file file:///path/to/password_file.txt # 使用密码文件存储敏感信息更安全
测试与Hive的连接性
同样地,检查Sqoop是否能够写入Hive。可以创建一个小规模的示例表来进行初步验证。
sqoop import \
--connect jdbc:oracle:thin:@//your_oracle_host:port/service_name \
--table example_table \
--target-dir hdfs_path_for_example_data \
--create-hive-table \
--hive-import \
--m 1 \
--null-string '\\N' \
--null-non-string '\\N'
第三步:批量导入Oracle数据库中的所有表到Hive
虽然Sqoop没有提供一键式导入整个数据库的功能,但我们可以通过Shell脚本来遍历Oracle数据库中的每一个表,并逐个调用上述导入命令来实现这一目的。
注意: 批量导入前,请务必备份重要数据以防万一出现问题导致数据损坏或丢失!
以下是简单的shell脚本模板供参考:
#!/bin/bash
ORACLE_HOST=your_oracle_host
PORT=port_number
SERVICE_NAME=service_name
USERNAME=username
PASSWORD_FILE=file:///path/to/orapasswordfile.txt
DATABASE_SCHEMA=schema_to_import_from_having_tables_in_it
TABLES=$(sqoop eval \
--connect "jdbc:oracle:thin:@//$ORACLE_HOST:$PORT/$SERVICE_NAME" \
--query "SELECT table_name FROM all_tab_columns WHERE owner='$DATABASE_SCHEMA'" \
--columns-only)
for TABLE in ${TABLES[@]}; do
echo "Importing Table : "$TABLE""
sqoop import \
--connect "jdbc:oracle:thin:@//$ORACLE_HOST:$PORT/$SERVICE_NAME" \
--username $USERNAME \
--password-file $PASSWORD_FILE \
--table $TABLE \
--split-by id_column_if_applicable_else_remove_this_option \
--num-mappers m_value_based_on_your_cluster_capacity_and_network_speed \
--compress \
--compression-codec org.apache.hadoop.io.compress.SnappyCodec \
--as-parquetfile \
--warehouse-dir "/user/hive/warehouse/" \
--hive-database default \
--hive-overwrite \
--hive-drop-partition-if-exists \
--hive-import
done;
说明:
-
id_column_if_applicable
: 如果存在合适的主键或其他唯一标识符,则利用其加速MapReduce作业的速度;否则删除此选项。 -
-m value
: 根据您的集群容量和网络速度调整Mapper的数量。 -
--as-parquetfile
,--compress
, 和--compression-codec
: 提升性能的同时减少磁盘空间占用率。