分类 大数据 中的文章

A simple Spark test project

I start to learn Spark to process some log files, here is a simple example. How to build Spark, please see http://spark.apache.org/docs/latest/building-spark.html Scala file import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]) { val conf = new SparkConf().setAppName("wordCount") val sc = new SparkContext(conf) val input = sc.textFile("/home/nickyang/develop/spark/spark-1.6.1/README.md") val words = input.flatMap(line => line.split(" ")) val couts = words.map(word => (word, 1)).reduceByKey{case (x, y) => x + y} couts.saveAsTextFile("/home/nickyang/develop/spark/spark-1.6.1/examples/wordCount/result") } } sbt file(use sbt to build this example) name := "SampleApp" version := "0.0.1" scalaVersion := "2.10.5" libraryDependencies += "org.apache.spark" %% "spark-core" % "1.6.2" % "provided" sbt package YOUR_SPARK_HOME/bin/spark-submit --class <span class="s2""SimpleApp"</span --master <span class="nb"local</span<span class="o"[</span1<span class="o"]</span target/scala-2.11/sampleapp_2.10-0.0.1.jar The result is in result directory, two files, one is _SUCCESS that tells us the right result, the other one is “part-00000”, contains words and words’ count in this……

阅读全文

[转]单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构

此文是根据杨尚刚在【QCON高可用架构群】中,针对MySQL在单表海量记录等场景下,业界广泛关注的MySQL问题的经验分享整理而成,转发请注明出处。 杨尚刚,美图公司数据库高级DBA,负责美图后端数据存储平台建设和架构设计。前新浪高级数据库工程师,负责新浪微博核心数据库架构改造优化……

阅读全文

最近文章

分类

标签

0x标准 2003 2011,总结 2013 2014 2015 2d 404 AHCI API AWS Aion Algorithm ArkGame ArkGameFrame Assert Big data BitStreams C++ C++标准 C 11 C/C++ CDT CRC64 CSP CSS Connect CppCheck CryptoAPI Decarator Dll DrawItem Dynamic Lib ECS Fedora Flickr GCC GET GUI GUID HTTP I/O IDE IOCP Intel JQuery JQueryUI JSON K/V Kubernetes LNMP Lib Linux Lua Luabind MFC Malloc Microsoft MsgPack MySQL NoSQL PM POD POST Partten RakNet SIGSEGV Scala Server SkyDrive Socket Spark Sprite Startup Static Lib SystemAddress TBB Threading Building Blocks TortoiseGit TortoiseSVN UI URL UUID Ubuntu Unity Unix VLD VPS VS2010 WebSocket Win7 Win8 Xfce ZMQ ZeroMQ _CrtDumpMemoryLeaks asio auto boost breakpad cloud codeblocks consistent hashing coroutine cx-freeze delete demo dlclose docker easyloggingpp eclipse ensure epoll feed feedburner feedsky flat_map git glog goagent google headonly httpd iOS7 iSpriter ibus jsoncpp leveldb libevent links linode log log库 lxde msysgit mutex mysqlpp nana noncopyable php property_tree protobuf pthread py2exe python recieve packet redis runtime sae sbt selinux share_ptr spinlock spirit svn tcp undefined reference vim vmware web windows live wordpress ws xml xshell 一致性哈希 七宗罪 下载 主机 主题 习惯 云计算 互斥锁 交流 产品 代码 代码分享 价值 优化 使用 例子 保钓事件 修改 元旦 全屏 公司 共享 内存 内存泄露 内容 写作 函数指针 分享 分布式 分析 创业 删除 制度 加密 加班 加速 十一 升级 半自动锁 协程 协议 单词 博客 原则 又拍网 反射 反序列化 发展 可视化 右值引用 命令 命令行 命名规则 唯一标示码 商业 团队 团队建设 国庆 国战 图床 图形用户界面 图片 地震 坚持 垃圾回收器 域名 备案 多核 多线程 多语言 多路复用 天龙八部 字体 学习 安装编译 实战 实现原理 容器 屌丝 工作 工具条 左值引用 年会 并发 序列化 开发环境 开源 异常 异步 异步I/O 引用计数 快速 思路 性能 总结 感悟 感触 扁平化 手游 批处理 技巧 技术 接口 提高订阅量 搭建 效率 教程 数据库 数据类型 数据结构 文人相轻 文件 文件格式 文档 文章 新年 新版本 新特性 新誉 方法 旅行 时间 智慧 智能指针 服务 服务器 服务器框架 架构 桂林 检测 模拟 模拟器 武神 水浒无双 求职 沟通 测试 消息内核 游戏 游戏开发 游戏行业 游戏设计 游戏资源 源代码 源码 漫画 版本控制 理性爱国 生活 电影 疑问 百度分享 百度喜欢 目录 目标 硬盘 祈福 神秘的程序员 程序员 程序猿 端游 简单应用 算法 管理 类库 精灵图 系统 线程锁 细心 经验 结束语 缓存 编程 编程规范 编程语言 编译 编译后事件 编译工具 网游 网游服务器 网站黑白 网络,C++ 网络库 网络开发 网络引擎 网络编程 网络设置 翻墙 翻译 翻译文档 职业 职业规划 职场 自动 自动化 自动类型推演 自助程序 自启动 自定义异常 自旋锁 自然风景 致歉 英语 蓝屏 薪资 虚拟化 行业 装饰器 规则 解密 解析JSON 解答 订阅 记忆 设计 评论 识别 语法 语言 请求 读书 调试 谍影重重5 责任 资本 趣味代码 跨平台 转义字符 软件 软件卸载 软件安装 软件设计 输入法 近况 进阶 连接 选择 道歉 避免错误 配色 链接库 问题 雅安 静态断言 静态编译 非编程 面试 页游 项目 项目经理 高估 高并发 高性能 高效

友情链接

其它