五月 _ 2011 _ 存档页面 _ alex's Cloud 云计算技术博客

使用Hadoop处理邮件格式为mime的大量邮件数据 (3)
本站主要内容均为原创，转帖需注明出处www.alexclouds.net 经过上一次MAP和REDUCE处理出来的数据实际上还不能直接拿来做分析，为什么，因为处理前它包含原始的文档、内容和URL，当被MAP和REDUCE后，它仍然也包含这些被提取的文本、元数据以及关于文档的注释内容。所以实际上要再经过一轮MAPPER，提取的数据才能被分析采用。这一轮MAP怎么？ &n...;
02011 年 5 月 14 日827Big Data大数据,编程与技术

使用Hadoop处理邮件格式为mime的大量邮件数据 (2)
本站主要内容均为原创，转帖需注明出处www.alexclouds.net 让我们看看MAPPER和REDUCER。说明：经过这一次MAP和REDUCE处理出来的数据实际上还不能直接拿来做分析，为什么，因为处理前它包含原始的文档、内容和URL，当被MAP和REDUCE后，它仍然也包含这些被提取的文本、元数据以及关于文档的注释内容。所以实...
02011 年 5 月 13 日790Big Data大数据,编程与技术
使用Hadoop处理邮件格式为mime的大量邮件数据 (1)
本站主要内容均为原创，转帖需注明出处www.alexclouds.net 为什么要写处理大量的MIME格式的邮件数据呢，因为博主2010年以前也是管邮件的，对邮件一直兴趣浓厚，对于NIX下的邮件存储格式、邮件目录、用户编码非常熟悉。再加上博主有一些JAVA和PYTHON脚本语言基础，因此这件事可以说对我来说也不是很复杂。分为几个部分阐述： 1、处理的邮件数据，来自于互联网，约5...
12011 年 5 月 9 日2,847Big Data大数据,编程与技术
python简单编程操作hadoop
本站主要内容均为原创，转帖需注明出处www.alexclouds.net 博主示例一个小程序，演示PYTHON怎么处理HADOOP里面的文件的。被处理文件由DMESG信息组成，就以分析处理DMESG这些简单的文本信息为例吧。前提条件是搭好hadoop环境。 1、简单操作一下，把文件写入HDFS$dmesg>kerneldata$hadoopdfs-mkdir/test$hadoopdfs-ls/test$hadoopdfs...
02011 年 5 月 7 日864编程与技术
关于hadoop中的wordcount测试程序的简单分析与改进(2)
本站主要内容均为原创，转帖需注明出处www.alexclouds.net 接下来就是排序了。博主认为这个排序目前还是只有一种办法。因为我希望统计单词数量的顺序是由高向低依次递减的。但是怎么搞呢？需要定义一个用户排序比较的静态内部类，通过这个类来控制词频统计最后的排序结果。还需要使用静态内部类IntWritableDecreasingComparator(sortJob.setOutputKeyComparatorClass(IntWritableD...
02011 年 5 月 2 日875Big Data大数据,编程与技术
关于hadoop中的wordcount测试程序的简单分析与改进
本站主要内容均为原创，转帖需注明出处www.alexclouds.net 这是博主从HADOOP0.X里的目录里拷贝出来的原程序。这个源程序不用过多解释，会写JAVA程序，然后看过MAPREDUCE思想，就会明白过来。博主才写完一个WORDCOUNT程序运行示例，是分析基本从网上DOWN下来的电子书的内容，这些为UTF-8格式的文本。不用我说，运行过使用过的朋友都知道了，这个切分是有缺陷的。...
02011 年 5 月 1 日773Big Data大数据,编程与技术

alex's Cloud 云计算技术博客 _ 低调的追求卓越 | http://www.alexclouds.net

当前位置 : 首页 >> 存档 >> 2011 >> 五月

使用Hadoop处理邮件格式为mime的大量邮件数据 (3)

使用Hadoop处理邮件格式为mime的大量邮件数据 (2)

使用Hadoop处理邮件格式为mime的大量邮件数据 (1)

python简单编程操作hadoop

关于hadoop中的wordcount测试程序的简单分析与改进(2)

关于hadoop中的wordcount测试程序的简单分析与改进