博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[原]基于RStudio Webinars的统计报告Web化与工程化实践总结
阅读量:6223 次
发布时间:2019-06-21

本文共 3450 字,大约阅读时间需要 11 分钟。

概述

本文根据 的教程资源对Rstudio流的R语言教程做一个汇总,可以看到Rstudio对统计报告的Web化和工程化做了大量贡献。感谢Rstudio的众多工程师在开源的道路上的贡献!

谢溢辉:LaTex/Word的统计报告大逃亡之Rmarkdown生态

在可交互、可复用的统计报告中,谢溢辉将介绍一众R包,包括 knitr、rmarkdown、htmlwidgets、DT、leaflet以及shiny。

快速标准的论文书写

# $something$ 或者 $$something$$ 可以解决数学公式的问题# 利用 bib 文件和[@something] 可以解决引用的问题# 同样的,你也可以根据一些机构要求引入标准的模板。

屏蔽源码

# ```{r echo=F}屏蔽源代码# ```{r, fig.width=5, fig.height=4} 设置配图大小# 脚注

代码段内存共享

  • 利用cache选项复用代码和数据

Sys.sleep(5)rnorm(1)

输出其他语言代码

  • 利用engine选项选择代码引擎,驱动python、R、scala、Rcpp、bash、perl、node等

x = 'hello, pythonworld!'print(x)print(x.split(' '))

交互式文档

  • 利用yaml配置中的runtime选项

---author: Harry Zhuoutput: html_documentruntime: shiny---

同理,你也可以选择输出slide、pdf或者word,你甚至可以给html定制一个css皮肤。

在我看来,rmarkdown是一款超越Zeppelin和iPython notebook的产品。

最总要的意义在于,学术工作者和工程师们不仅仅可以摆脱格式对创作的束缚专注于代码和文档,更是随意输出pdf、slide、html、word、latex等多种格式,形成强有力的跨界冲击。

谢溢辉本人有超过10年以上的LaTex使用经验,他的rmarkdown和knitr造福了一代学术工作者,显然LaTex和Word的体系在这种降维攻击下已经摇摇欲坠。

Hadley Wickham:R与大数据共舞

R是一门为小数据探索和开发设计的语言,但在生产中R和大数据在一起还能发挥作用吗? 我们定义数据量大于单机内存的数据为大数据。让我们对比一下大数据与小数据的生命周期。

一个小数据分析项目的生命周期:

  • 阐明:熟悉数据、模板解决方案

  • 开发:创建有效模型

  • 产品化:自动化与集成

  • 发布:社会化

一个大数据分析项目的生命周期:

  • 切片:抽取部分数据

  • 阐明:熟悉数据、模板解决方案

  • 开发:创建有效模型

  • 扩展:使用到整个数据集

  • 产品化:自动化与集成

  • 发布:社会化

dplyr与数据读取

Package DBMS
src_sqlite() SQLite
src_mysql MySQL
src_postgres PostgreSQL
library(bigquery) src_bigquery() Google BigQuery

显示SQL

show_query(clean)

中间缓存

collapse()返回正在处理的结果

# 抽取 1% 的训练数据random <- clean %>% mutate(x = random()) %>% collapse() %>% filter(x <= 0.01) %>% select(-x) %>% collect()

数据存储

copy_to() 根据本地的data frame 在数据库创建一个表

# air为connection名称,query5为data frame,"gains"为表名copy_to(air, query5, name = "gains")# 关闭连接rm(air)# 垃圾收集器gc()

Hadley Wickham:ETL

本节将讨论一个有效的数据分析/数据科学问题框架,包括:

  • 数据读取 readr/httr/DBI

  • 数据清洗 tidyr/jsonlite

  • 数据处理 dplyr/rlist

  • 数据可视化 ggplot2/ggvis

  • 数据建模 broom/modelr

broom:快速分析

install.packages("broom")# 查看相关例子browseVignettes(package="broom")

Hadley Wickham是RStudio的首席科学家,并兼任统计莱斯大学的兼职教授。他将一一介绍他认为你应该知道的各种R包,并概述大数据和R,但主要是解释为什么他相信你不应该担心大数据的问题。

modelr:建模工具

install.packages("modelr")

下面是modelr核心函数,可以辅助抽样、交叉验证、残差计算等等

modelr::%>%                 modelr::data_grid           modelr::mae                 modelr::rmsemodelr::add_predictions     modelr::fit_with            modelr::model_matrix        modelr::rsquaremodelr::add_predictors      modelr::formulae            modelr::na.warn             modelr::seq_rangemodelr::add_residuals       modelr::formulas            modelr::qae                 modelr::spread_predictionsmodelr::bootstrap           modelr::gather_predictions  modelr::resample            modelr::spread_residualsmodelr::crossv_kfold        modelr::gather_residuals    modelr::resample_bootstrap  modelr::typicalmodelr::crossv_mc           modelr::geom_ref_line       modelr::resample_partition

garrettgman:packrat与虚拟化技术

你是否有过这样与人合作开发的经历:在自己机器上运行完美的R代码,复制到另外一台同事的机器上运行就有很多R包需要重新安装,有的R包甚至依赖于不同的版本?现在,在不使用Docker或Vagrant等全局虚拟化技术的条件下,只需要运用packrat包,就可以保证你的R项目的依赖问题被很好的解决,一次运行,到处运行。

if(!require(packrat)){install.packages("packrat")}getOption("repos") # 显示代码镜像源packrat:: bundle() # 打包当前环境并虚拟化packrat:: unbundle(bundle="xxx.tar.gz",where=".") # 加载已经打包过的环境packrat::opts$local.repos("~/R") # 设置本地repos为路径packrat::install_local("pryr") # 从本地安装

Hadley Wickham:Git与团队协作

团队协作:利用Git 和 GitHub,你可以很轻松的与人协作,你不再需要用邮件附件来备份文档,或者在Dropbox上为争夺编辑权限而争吵。相反,你可以独立工作,最后只需要合并你们的成果就可以。

版本控制: Git 在我们制造重大错误时都允许我们回滚到之前的任意时间点。我们也可以回顾我们之前所做的一起历史记录,跟踪bug的形成过程。

作为分享主义者(sharism),本人所有互联网发布的图文均遵从CC版权,转载请保留作者信息并注明作者 Harry Zhu 的 FinanceR 专栏:,如果涉及源代码请注明GitHub地址:。微信号: harryzhustudio

商业使用请联系作者。

你可能感兴趣的文章
Pazera Free Audio Extractor 中文版 - 轻松将视频背景音乐/对话音频提取出来的免费软件...
查看>>
读取spring配置文件的方法(spring读取资源文件)
查看>>
PostConstruct
查看>>
MyEclipse------快速读取特定目录下的文件的内容(字节输入流)
查看>>
Linq查询操作之排序操作
查看>>
Spring 4支持的Java 8新特性一览
查看>>
RHEL6.2下挂载光驱安装软件
查看>>
YYCache 源码分析(二)
查看>>
2016年第9本:系统之美
查看>>
framebuff 显示子系统
查看>>
php手册杂记
查看>>
Yii2 定时任务创建(Console 任务)
查看>>
lombok+slf4j+logback SLF4J和Logback日志框架详解
查看>>
PHP 单例模式继承的实现方式
查看>>
思维杂谈(1)
查看>>
【Java深入研究】3、HashMap源码解析(jdk 1.7)
查看>>
1102 采药 2005年NOIP全国联赛普及组
查看>>
WebSockets Tutorial(教程一)WebSockets简介
查看>>
仿支付宝/微信的password输入框效果GridPasswordView解析
查看>>
【复制虚拟机】虚拟机复制后无ip的问题
查看>>