JackieMe
JackieMe
 主要参考博文 : - [Dealing with The Problem of Multicollinearity in R](https://r-posts.com/dealing-with-the-problem-of-multicollinearity-in-r/) - [Multicollinearity in R](https://datascienceplus.com/multicollinearity-in-r/) ## 引子 如果现在我们预测一个国家,比如说中国,2018 年全年的旅游收入(美元)。因变量是中国 2018 年度的旅游收入 Y,自变量 X 我们假设存在下面两组: 1. X1 = 2018...
 花了几天时间把 [`mimic-code/notebooks/crrt-notebook.ipynb`](https://github.com/MIT-LCP/mimic-code/blob/master/notebooks/crrt-notebook.ipynb) 从头到尾看了一遍。虽然消化得还不是很好,但是觉得这一篇教程真的是干货满满。决定还是花点时间仔细再整理一下。和前面一样,我还是尽量放到 R 里做,R 不好做的我再到 Juputer 里做。R 的设置在上一篇里写过,这里我就只写 Python 里的准备工作了。需要的东西有: - PostgreSQL 运行,本地建立好 MIMIC-III 数据库 - Python,我是 conda 环境的 Python 3.6。使用 Jupyter 的话当然还得搭配浏览器 - R,最好搭配 RStudio ------- 这个记事本(因为教程以...
mimic-code 的 `tutorials`还提供了 `sql-crosstab`,很短,我大概看了感觉不是很有用,先放着了。`using_r_with_jupyter.ipynb` 就是教你怎么用 Jupyter + R,没什么。`explore-items.Rmd` 是 MySQL + R,但是没太搞懂这是在干嘛,而且我也没 MySQL,代码转 Postgres 应该不难,我太懒了。直接看最后一个,`cohort-selection.ipynb`,打开看了 Postgres + Python,讲怎么选择病例队列的一些小技巧,感觉写得挺好的。就这个了,开始。 原文档用的 Python,我不喜欢。当然还是 R 好啦,所以我直接用里面的 `sql` 语句就行了。 ----- ## Cohort selection The aim...
 最近学学 Python 做数据分析,主要就是 Python 基本语法 + NumPy + pandas 咯。 发现很好的一些教程: - [python_for_data_analysis_2nd_chinese_version](https://github.com/iamseancheney/python_for_data_analysis_2nd_chinese_version) - [Numpy & Pandas (莫烦 Python 数据处理教程)]() - [Data analysis in Python with pandas](https://www.youtube.com/playlist?list=PL5-da3qGB5ICCsgW1MxlZ0Hq8LL5U3u9y) 果然人生苦短,大家都在用 Python。好教程都一搜一大把。然后今天在...
 今天突然看到在 GitHub Issues 写博客这种操作,顿时觉得这比之前的 Pages + Hexo 更方便,而且之前一直觉得麻烦的迁移问题迎刃而解。好吧,其实是我不懂 Hexo ,不知道怎么迁移。 决定试试把 Hexo 中的内容迁移过来试试看。 - [x] 发一篇带图片的博客 - [x] 解决怎么加标签的问题 - [ ] 找一个好的显示日期的解决方法 - [ ] 剩下的就是体力活啦 突然想到 **`README`...
感觉必应随便搞个图下来当封面不错的。再来一次  这一篇为什么隔了好几天才出来呢,因为代码的理解难度突然、陡然、猝不及防的上了个 90 度的坡。我看了好几天没看懂。在 RStudio 里光是调代码缩进方便看代码眼睛都要瞎了。结果我的 1080p 屏幕还是无法很好的显示代码,因为一段代码太长了。最后实在没办法还是用 vim 调,顺便学了下 vim 里代码折叠,然后就可以愉快的把那种括号内的东西折叠起来,然后再调代码缩进方便很多,然后代码格式调好了,但是我不是很懂......还得看。 通过前面的两篇,我们用尽心思,千辛万苦,翻雪山过草地,四渡赤水河,用了七七四十九步,历经九九八十一难,终于,finally,at last 可以把同一个事件的多个时间段合并得到一个完整的时间段。但是不要高兴得太早了,还记得我们最开始的时候是 **INPUTEVENTS_MV**、**CHARTEVENTS** 和 **PROCEDUREVENTS_MV** 一共三张表格吗?现在我们刚刚把 **INPUTEVENTS_MV** 表格处理完,而已。我们在上一篇 **Step 4** 定下的步骤还记得吗?  有没有很惊喜?有没有很意外?我们做了这么就其实才做完 Step 4...
 今天决定学一下 Tmux 怎么用,因为经常发现要开几个 Terminal Tabs 处理不同的东西,然后要对照的时候来回切真的很累。手按快捷键累,眼睛盯着来回在跳动的文本也累。Vim 本身其实也很容易可以左右上下的切分视图,但是切出来的都是 Vim。虽然想要运行 Shell 命令也不是不可以,但是终究没有 Tmux 直接切分终端来得方便。 当然 Tmux 好处还有很多,比如 ssh 连接到服务器打开 session,detach 到后台,断开 ssh 之后再连上去 atach 回之前的 sesion 东西都在。但基本上我看上的就是切割 pane 这个了,也懒得说其他了,用得上再去学。 ##...
~~~ 2017-05-10 ~~~ --- 我选择了 Miniconda,因为不喜欢 Anaconda 那种巨无霸全家桶。 官方文档地址:[Managing environments](https://conda.io/docs/using/envs.html) --- ## 基础 安装 Miniconda 时,默认自带一个名为`root`的环境,可以直接使用 ``` source activate root ``` 即可激活。在环境内执行`pip install foo`和`conda install foo`一样都将会为当前`root`环境装包 添加 conda 的 TUNA...
 最近处理数据经常需要取某个字符串一部分用来重命名的情况,比如 `sample1.fastq.gz` 比对到基因组想要取出来 `sample1` 用来命名生成的 `sam` 文件或者 log,PC 跑起来太慢 log 不能盯着看结果太多又必须要求重定向。每次都要查一下取子集和输出和错误怎么重定向,自己都烦了,干脆写在这儿了。 ## 字符串取子集 Shell 里字符串取子集用到 `${}` 这样的命令形式。下面通过例子来说明。 我们先定义了一一个变量: `file=/dir1/dir2/dir3/my.file.txt` 下面就用 `${ }`分別获得不同的值: `${file#*/}`:拿掉第一个 `/` 及其左边的字串:`dir1/dir2/dir3/my.file.txt` `${file##*/}`:拿掉最后一个 `/` 及其左边的字串:`my.file.txt` `${file#*.}`:拿掉第一个...
~~~ 2017-06-22 ~~~ ## 让 R 在完成任务时发送通知或者叮一声 [Is there a way to make R beep/play a sound at the end of a script?](https://stackoverflow.com/questions/3365657/is-there-a-way-to-make-r-beep-play-a-sound-at-the-end-of-a-script) 1. Throw a Beep ```R install.packages("beepr") library(beepr)...