Scala首次安装流程总结(hello world!)

Apache Spark是一个集群计算引擎,它抽象了底层分布式存储和集群管理,,使它可以插入plugin大量的专门的存储和集群管理工具。Spark支持HDFS, Cassandra, local storage, S3, 甚至传统的关系数据库作为存储层,也可以和集群管理工具YARN, Mesos一起工作,相对集群模式它还有单机模型,Spark已经打破了由Hadoop创造的排序记录。由于Spark ...

  

Shell编程:Expect免交互模拟输入

对于大规模的Linux运维很有帮助在Linux运维和开发中,我们经常需要远程登录服务器进行操作,登录过程是一个交互的过程,可能会需要输入yes/no,password等信息。为了模拟这种输入,可以使用Expect脚本。 Expect简介 Expect是建立在tcl基础上的一个工具,Expect是用来进行自动化控制和测试的工具。主要解决shell脚本中不可交互的问题。对于大规模的Linux运维很有 ...

Python系列rpy2:在Python中运行R

作为统计学出身的,在学校里基本都在使用R,对于R在统计学领域的应用真的是强大的存在。但工作以后我开始将自己的工作重心转移到Python上,然而最近需要做一个A/B testing合成控制法的工作,查找的很多资料都是R的,这才让我意识到R在统计分析方面的优势是非常巨大的,Python虽然也有scipy这种包,但是相比于R来说还是太弱了,毕竟R就是搞统计使用的。 所以,在前沿统计学这块,R是明显要比 ...

让Python代码离Pythonic更近一步

如果你也听说过著名的“the zen of python”,如果你和我一样小白到写的代码总是乱七八糟,如果你也想了解一下真正“Pythonic”的代码是什么样子的话,不妨看下去。 pythonic,简单的翻译就是python风格,pythonic code,就是说你写的代码要带有浓厚的python规范和python风格。往规范了说,PEP 8是你写出规范代码不得不读的文章,至于往python风格来 ...

R语言数据框(data.frame)的使用小结

统计分析中最常见的原始数据形式是类似于数据库表或Excel数据表的形式。 这样形式的数据在R中叫做数据框(data.frame)。 数据框类似于一个矩阵,有行、列, 但各列允许有不同类型:数值型向量、因子、字符型向量、日期时间向量。 同一列的数据类型相同。 在R中数据框是一个特殊的列表, 其每个列表元素都是一个长度相同的向量。 函数data.frame()可以生成数据框,如 d <- da ...

Python正则表达式的常见用法

字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。 正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。 在Python3.0中,用来处理正则表达式的包为re。 使用的时候需要先引入这个包,语句为 import re 查找一个匹配项 查找并返回一个 ...

随机化实验 vs 观察性研究:你该知道的统计学思维

这两类都是因果推断的方法。 观察性研究又分为两部分:一部分是简单的抽样调查(如国民经济的预算),这部分只关心均值方差、分位数、相关性;另外一部分是狭义的观察性研究,是指从没有随机化的研究中进行因果推断。 随机化研究是比较理想的状态,可以随机地分配到处理和对照组上,分配的机制是完全已知的、可以确定的。 这首先是因为观察性研究的重要问题是混杂,相关关系完全可能是由于潜在的观察不到的z导致的;而对于随机 ...