首页 > > 网络编程 > 其它 >

教程｜要想Hadoop能够运行Python程序，就要会MRJ…

2018-12-27 07:42:46来源：博客园阅读 ()

首先

要想Hadoop能够很流畅的Python程序，学习mrjob可能是最直接、最简单的方法了

你甚至都不要按安装部署Hadoop集群。

mrjob拥有很多优秀的特性比如：

支持多步骤的MapReduce任务工作流
支持内嵌、本地、远程亚马逊以及Hadoop
调试方便不需要任务环境支持

本教程通过 python 中 mrjob 模块来调用 hadoop 处理数据。通过本次实验，你可以初步入门mrjob，轻松编写mr来使用hadoop。

主要知识点：

Python MRJob模块的安装
Hadoop——Python各模块介绍
使用MRJob实现文本统计
Python MRJob的运行方式
重写MRJob函数实现复杂数据处理

效果展示。该展示数据含义是通过mrjob将每个用户（cuid）看过哪些电影（vid）进行统计并输出。

mrjob支持python2和python3 。mrjob可以通过pip直接安装，也可以通过下载源码通过setup.py安装，可参考mrjob安装说明。本实验中，使用shiyanlou账户通过sudo权限进行安装。pip安装指令：

目前常见的Python框架有以下几个，这里再简单介绍一下各框架的大体特点，想了解更多可去博客查阅。

Hadoop Streaming。提供了使用其他可执行程序来作为Hadoop的mapper或者reduce的方式，必须使用规定的语义从标准输入读取数据，然后将结果输出到标准输出。直接使用Streaming 的一个缺点是当reduce的输入是按key分组的时候，仍然是一行行迭代的，必须由用户来辨识key与key之间的界限。

mrjob。开源的Python框架，封装Hadoop的数据流，并积极开发Yelp的。由于Yelp的运作完全在亚马逊网络服务，mrjob的整合与EMR是令人难以置信的光滑和容易（使用 boto包）。

dumbo。同样使用Hadoop流包装的框架。dumbo出现的较早，但由于缺少文档，造成开发困难。这也是不如mrjob的一点。dumbo通过typedbytes执行序列化，能允许更简洁的数据传输，也可以更自然的通过指定JavaInputFormat读取SequenceFiles或者其他格式的文件

hadoopy。是一个兼容dumbo的Streaming封装，也使用typedbytes序列化数据，并直接把 typedbytes 数据写到HDFS。它有一个很棒的调试机制，在这种机制下它可以直接把消息写到标准输出而不会干扰Streaming过程。它和dumbo很相似，但文档要好得多。

pydoop。与其他框架相比，pydoop 封装了Hadoop的管道（Pipes），这是Hadoop的C++ API。正因为此，该项目声称他们能够提供更加丰富的Hadoop和HDFS接口，以及一样好的性能。需要注意de所有的输入输出都必须是字符串。

其他 -happy、Disco、octopy、Mortar、Luigi 等。

后面便是使用mrjob实现词组统计以及mrjob多种运行方式等等的介绍。完整的教程已经配套的练习可以在实验楼的主站去学习。

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：python爬虫项目-爬取雪球网金融数据（关注、持续更新）

下一篇：Django-404错误处理

python爬虫学习之淘宝模拟登录 2019-08-13
千锋Python高级视频教程 2019-07-24
400全集Python全套视频教程 2019-07-24
图灵学院 Python全系列教程全栈工程师 python视频教程下载 2019-07-24
python零基础系统学习教程之Python 变量类型 2019-07-24

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签