您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息
免费发信息
三六零分类信息网 > 广安分类信息网,免费分类信息发布

MySQL向Hive/HBase的迁移工具

2024/3/16 23:00:21发布10次查看
apache hive是目前大型数据仓库的免费首选产品之一,使用apache hive的人是不会期望在小数据量上做什么文章,例如把mysql中的数据搬到hive/hbase中去,那样的话原先很快能执行完毕的sql,估计在hive上运行跟原来相比时间延长10倍都不止。但如果你有mysql数据
   apache hive是目前大型数据仓库的免费首选产品之一,使用apache hive的人是不会期望在小数据量上做什么文章,例如把mysql中的数据搬到hive/hbase中去,那样的话原先很快能执行完毕的sql,估计在hive上运行跟原来相比时间延长10倍都不止。但如果你有mysql数据可以把大量的数据向hive导入,如果上亿条的数据量再加上复杂的sql查询条件对于mysql来说是一件比较头疼的事情,此时相比而言对于hive来说还算比较easy没有那么非常的头痛,但是两者之间缺少一个沟通的桥梁。
而然伟大的云计算公司cloudera.com也是hadoop强力支持者推出了sqoop,sqoop顾名思义sql-to-hadoop,在sqoop中通过 managerfactory 抽象类对多种数据库类型进行了抽象,可以做到 hsqldb、mysql、oracle、postgresql 这些数据库中的数据可以向hive中写入。
从导出/导入所有数据一条命令即可,而且可以对表和数据的筛选,开发的效率提升和配置的简洁是这个工具的特色所在,同样的机器配置、机器数量、数据量和数据内容,但是换了不同的环境得到了不同的执行效率,通过对rmdbs到hadoop的迁移,带来了性能的提升,所以就体现了sqoop的价值。
在一次开发大会上提到的sqoop主要功能
    jdbc-based implementation
        ? works with many popular database vendors
    auto-generation of tedious user-side code
        ? write mapreduce applications to work with your data, faster
    integration with hive
        ? allows you to stay in a sql-based environment
    extensible backend
        ? database-specific code paths for better performance
具体操作手册相见:
http://archive.cloudera.com/cdh/3/sqoop/sqoopuserguide.html (官方)
相关文章:
 hive入门3–hive与hbase的整合
 apache hive入门2
 apache hive入门1
 apache pig入门1 –介绍/基本架构/与hive对比
–end–
原文地址:mysql向hive/hbase的迁移工具, 感谢原作者分享。
广安分类信息网,免费分类信息发布

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录