编程开发 购物 网址 游戏 小说 歌词 地图 快照 股票 美女 新闻 笑话 | 汉字 软件 日历 阅读 下载 图书馆 开发 租车 短信 China
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
多播视频美女直播
↓电视,电影,美女直播,迅雷资源↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
移动开发 架构设计 编程语言 互联网 开发经验 Web前端 开发总结
开发杂谈 系统运维 研发管理 数据库 云 计 算 Java开发
VC(MFC) Delphi VB C++(C语言) C++ Builder 其它开发语言 云计算 Java开发 .Net开发 IOS开发 Android开发 PHP语言 JavaScript
ASP语言 HTML(CSS) HTML5 Apache MSSQL数据库 Oracle数据库 PowerBuilder Informatica 其它数据库 硬件及嵌入式开发 Linux开发资料
  编程开发知识库 -> 云计算 -> 基于Hadoop的第二个分布式算法Day4 -> 正文阅读
 

[云计算]基于Hadoop的第二个分布式算法Day4[第1页]

  今日算法已经以standlone模式在本机上跑通了,结果也和之前的那版(数据读入内存采样)一致。期间为了达到一致的效果,改了一是无放回采样,二是采样SQL随机程度问题,因为我忘记了每组的id不是从0开始的,之前只是实现了用id分组,所以每组第一个值也就是最小值就有较大的概率被取到,改完之后,很随机了。在昨晚的思考后,根据公式我发现最后采样总会停止,最大的迭代次数就是每组最大的记录数,因为此时置信区间宽度变为0,所有组必定没有overlap,算法停止,而实验表明最后确实在迭代了300次之后停了,但这也说明尽了最大能力采样,这种各组平均值都相差较小的极端情况,进行了很多次的迭代,可以说是非常慢了。实验结果standlone模式下跑了10min+,切换成本机yarn模式30min+妥妥的,yarn模式反而更慢了(无论是本机还是大集群),应该这是真实的分布式环境,存在真实的网络等开销,所以一个真实的job运行时间是慢的,用Mapreduce仅仅为了采样实在是小题大做了。
想法:1.增大step,即每轮迭代每个map采样的数量;2.其它办法,使得算法更适合分布式。
算法正确性问题还需要考虑,因为现在分布式实现的效果已经和之前把文件读到内存中采样完全一样了,但是两版的结果并不是完全正确,正确性还是有出入的。
今天只遇到一个bug:java中split()特殊符号"." "|" "*" "\" "]" 实习时候好像也碰到过,但是还是忘了

http://blog.csdn.net/myfmyfmyfmyf/article/details/37592711
阅读全文
版权声明:本文为博主原创文章,未经博主允许不得转载。
本文已收录于以下专栏:

发表评论
HTML/XML objective-c Delphi Ruby PHP C# C++ JavaScript Visual Basic Python Java CSS SQL 其它
相关文章推荐
1-4.Hadoop安装配置-伪分布式(Hadoop系列day01)
http://archive.apache.org/dist/ (apache所有的项目都在这里) 下载Hadoop到Windows secureCRT 有上传功能 上传Had...
yusongtaochn 2016-09-20 21:57 110

基于Hadoop平台的通信数据分布式查询算法的设计与实现.pdf
2013-09-02 21:01 2.52MB 下载
大数据学习记录(day4)-Hadoop之MapReduce的执行方式
今天学习了MapReduce的三种工作方式,通过代码解析的方式对MapReduce的迭代式、依赖式和链式工作方式做了说明。
alvin_2005 2017-06-01 08:48 190 Hadoop生态系统搭建(4)——高性能分布式 NoSQL 数据库 HBase 的安装部署与测试
1. 系统环境Ubuntu 16.04 vmware Hadoop 2.7.0 Java 1.8.0_111master:192.168.19.128 slave1:192.168.19.12...
Mark_LQ 2017-04-14 19:36 410 虚拟机搭建hadoop的全分布式集群-in detail (4)
虚拟机搭建hadoop的全分布式集群-in detail(1)
happyjiwawa 2014-06-03 22:15 742 完全分布式Hadoop集群的安装搭建和配置(4节点)
学习参考了给力星的两个节点的hadoop搭建过程,我用VirtualBox开了四个Ubuntu(版本15.10)虚拟机,搭建了四个节点的Hadoop分布式集群,并配置了HA,适合首次搭建的同学参考,节...
login_sonata 2016-10-05 21:06 786 『算法学习笔记』4th -8th day. 10道习题 & 常用数学函数
1.平均数 average 输入3个平均数,输出它们的平均值,保留3位小数。 1 #include 2 int main() 3 { 4 int a,b,c; 5 ...
zhangliangaws 2014-02-25 10:51 982 memcached全面剖析–4. memcached的分布式算法
发表日:2008/7/23作者:长野雅广(Masahiro Nagano)原文链接:http://gihyo.jp/dev/feature/01/memcached/0004 前几次的文章在这里...
wxyFighting 2013-05-07 09:08 436 memcached全面剖析–4. memcached的分布式算法
转自:http://kb.cnblogs.com/page/42734/ 本系列文章导航 memcached完全剖析–1. memcached的基础 memcached全面剖...
daisyZH 2013-01-21 15:33 122 memcached全面剖析–4 memcached的分布式算法
memcached的分布式 正如第1次中介绍的那样, memcached虽然称为“分布式”缓存服务器,但服务器端并没有“分布式”功能。 服务器端仅包括 第2次、 第3次 前坂介绍的内存存储功...
cywosp 2012-07-01 21:57 1219
xerjava +关注
原创 29 粉丝 3 喜欢 0 码云  
他的最新文章 更多文章
基于Hadoop的第二个分布式算法Day3 基于Hadoop的第二个分布式算法Day1-2 用MySQL实现组内随机采样 java web调用mapreduce算法-Day5-8
在线课程

【免费】搜狗机器翻译技术分享
讲师:

深度学习在推荐领域的应用和实践
讲师:吴岸城
热门文章 P2P模式文件传输网络应用的开发
941
cloudera虚拟机的搭建
706
linux环境下的多人聊天程序设计
620
MFC编写的小游戏过程中的收获
598
首次触电php
536
0
  云计算 最新文章
NLP06-Gensim源码简析[字典]
pandas中使用三元表达式
Docker基础笔记
大数据工程师必备技能图谱
ServiceComb中的数据最终一致性方案
63. Unique Paths II
手把手教你建github技术博客by hexo
hadoop datanode结点不启动导致dfs控制台显
spark on yarn架构简介
mapreduce程序本地模式调试
上一篇文章      下一篇文章      查看所有文章
加:2017-10-30 04:04:25  更:2017-10-30 04:04:33 
VC(MFC) Delphi VB C++(C语言) C++ Builder 其它开发语言 云计算 Java开发 .Net开发 IOS开发 Android开发 PHP语言 JavaScript
ASP语言 HTML(CSS) HTML5 Apache MSSQL数据库 Oracle数据库 PowerBuilder Informatica 其它数据库 硬件及嵌入式开发 Linux开发资料
360图书馆 软件开发资料 文字转语音 购物精选 软件下载 美食菜谱 新闻资讯 电影视频 小游戏 Chinese Culture 股票 租车
生肖星座 三丰软件 视频 开发 短信 中国文化 网文精选 搜图网 美图 阅读网 多播 租车 短信 看图 日历 万年历 2018年7日历
2018-7-19 0:41:23
多播视频美女直播
↓电视,电影,美女直播,迅雷资源↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  编程开发知识库