大智网汇
综合信息情报站

生物信息学入门需要具备什么能力?

生物类的小硕毕业后想从事生物信息学的工作,计算机基础0,想问生信入门需要具备啥能力,可具体推荐几本书,thanks.

赞(0) 打赏
以上内容(如有图片或视频亦包括在内)为自媒体平台用户上传并发布,未作人工编辑处理,不构成投资建议请自行甄别,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:wolfba@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容!

评论 5

  1. #1

    作为一名曾经的生信部经理,从我们的角度来答下这道题吧。以下内容只适合准备找工作的人,而不适合准备继续在生信象牙塔里深造的人。

    1. 从公司的角度来看,一位应届硕士是什么样的定位?
    我们需要的是一位经过短时间培训就能独立干活的人。

    2. 为什么需要这样的应届硕士?
    因为你们工资低…校招比社招的工资低多了。公司虽然为应届生付出了一部分培训成本,但培训后的你们完全能够担任公司的主力部队,总体而言还是赚的。对,生信公司的主力是硕士,不是本科也不是博士,本科培养周期太长,博士太贵。

    3. 那么哪些技能是公司需要的呢?
    公司的第一要务是盈利,虽然会给你们投入一些培训成本,但是并不希望投入太多,以短时间培训即可独立干活作为原则来思考,答案就很简单了。

    4. ……能不能说得更明确点?
    生物信息学所用的计算机知识和CS专业的计算机知识有多大不同?
    对照这篇帖子来看吧,我们不会要求一个应届硕士能独立搭建出一台服务器,但至少不能看到linux界面连复制粘贴取前一百行都不会…我们也不会要求一个应届硕士能够立刻马上写出一整套生信分析流程,但至少哈希/字典还是应该会用的。公司可不希望招来一个电脑小白,光编程就得教上个把月的那种。

    5. 那么应该点亮技能树上的哪一部分?
    先学Linux基础。
    Perl和Python二选一,这会是你吃饭的玩意。
    R语言有所涉猎。
    有兴趣自己装一台linux先玩玩,配置不用很好,虚拟机或者双系统都是可以的。

    6. 有什么书推荐?
    Linux我推荐《Linux从入门到精通》
    Perl没什么好说的,小骆驼
    Python我喜欢黄黑色那本《Python基础教程》
    R…随便吧,这门语言太庞杂,随便找一本看明白它的基本用法,反正最后都是去看每个包的说明文档的。

    7. 需要学到什么程度?
    每本都是半本足够了…真的是半本,我们不是码农,暂时用不到特别天花乱坠的编程技巧。

    8. 怎么样知道自己的能力是不是达标了?
    找篇简单点的生信文章,跌跌撞撞安软件、写胶水脚本照着做一遍就算可以了。
    能够做出和作者一样的结果,说明你已经能够独立运用自己的编程能力去解决生物学问题了,未来一段时间的工作也就只是比这次做得更熟练、更优雅、更深入,不要怕。
    当然,你要有幸接到一些生信的课题,绝对务必一定要做,这个将会是重大的加分项。

    9. 还有什么要说的?

    有事没事加一些生信的群、微信公众号,比如@曾健明 那边的生信菜鸟团,是很适合入门的地方。

    sKaelthas7年前 (2017-09-12)回复
  2. #2

    生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题。但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程序。也许你可以跟着一个测序分析流程完成操作,但不懂得背后的原理,不知道什么参数需要修改,结果可以出来,却把我不住对还是错。

    学习生信从来就不是一个简单的事,需要做好持久战的心理准备。

    在学习时,我们都希望由浅入深的逐步深入,不断地练习和实践,这就是为什么我们需要一本书,因为书很系统。但生信发展的历史短于计算机编程的历史,如果想要一门程序设计的入门数据,每种语言都可以找到几本。但想要一个囊括生信的书,就有些难了。本身生信跨领域,需要多学科的知识,而其内部又有不少分子,都囊括了太大,包括的少又有些隔靴搔痒的感觉。

    我们当时都是零基础下自学Linux,
    自学Python,自学R,自学高通量测序;这些学习经历,之前都零星地记录在博客里。现在回头去看几年前自己记录的东西,觉得好简单,而当时却费了很大的力气。这些零星的随手记,当时也只是为了自己看,到现在确实只有自己能看得懂,不便惠及更多的人。

    因此我们创建了生信宝典,希望从不同的角度传播知识。这个不同有三点含义,一是形式上的不同,摒弃之前主编们单人作战想写啥就写啥,而是有组织有计划的内容聚合,提供一系列的教程,由入门到提高。二是内容的不同,不去用网上现有教程的通用数据做例子,而是拿实际生物数据,讲述如何解释生信中普遍碰到的问题,讲述如何处理自己的数据。三是立足点不同。在写作时,我们回到了当年,在回忆中用整个阶段的学习去指导当初的那个小白,从那些会了的人觉得微不足道而不会的人又迈不过的坎入手,直击痛点。知识点的收录依据不是是否炫酷,是否难,而是是否必要。如果必要,再简单,也要提及;如果不必要,再炫酷,也暂不纳入。

    通过大量的生信例子、关键的注释和浓缩的语句形成下面的一系列学习教程。每一篇内容都不多,可以当做小说阅读,也可以跟着去练,反复几遍,每读一次都会有不同的收获和体会。

    系列教程

    • 生物信息之程序
    • 如何优雅的提问
    • 生信宝典视频教程
    • 好色之旅-画图三字经
    • 转录组分析的正确姿势
    • 生信的系列教程
    • 生信的系列书籍
    • 文章用图的修改和排版 (1)
    • 文章用图的修改和排版 (2)
    • 简单强大的在线绘图
    • 简单强大的在线绘图-升级版
    • 论文图表基本规范
    • 学术图表的基本配色方法
    • 英语写作常见错误总结和学习视频
    • 教育部推出首批490门“国家精品在线开放课程
    • 你该知道的杂志分区和影响因子及最新表格下载
    • 你和PPT高手之间,就只差一个iSlide
    • 史上最全的图表色彩运用原理

    NGS分析工具评估

    • 39个转录组分析工具,120种组合评估(转录组分析工具哪家强-导读版)
    • 39个转录组分析工具,120种组合评估(转录组分析工具大比拼 (完整翻译版))
    • 无参转录组分析工具评估和流程展示

    宏基因组教程

    • 微生物组入门必读+宏基因组实操课程
    • 扩增子图表解读-理解文章思路
    • 扩增子分析流程-把握分析细节
    • 扩增子统计绘图-冲击高分文章
    • 宏基因组分析教程
    • 4500元的微生物组培训资料

    ChIP-seq专题

    • ChIP-seq基本分析流程

    系列宣传

    • 转录组分析的正确姿势
    • 120分的转录组考题,你能得多少
    • 生物信息作图系列R、Cytoscape及图形排版和Python编程培训研讨班开课了
    • 维密摔倒不可怕,关键时有人搀一把,坚持走下去
    • 生物信息作图系列 – R、网络图及文章图形排版
    • 易生信转录组培训总结和优惠分享
    • 生物信息9天速成班 — 你也可以成为团队不可或缺的人
    • Python没有捷径,但可以加速,零基础九天你也可以会编程
    • 小学生都学Python了,你还不知道怎么开始-资源帖
    • 一个月学会Python的Quora指南和资料放送
    • 扩增子分析基本流程和结果解读
    • 微生物组——扩增子分析专题实战开课啦
    • 如何入门生信Linux
    • 3分和30分文章差距在哪里?
    • 生信必备Linux培训,助您扎好根基
    • 表观调控高通量测序分析培训开课啦
    • 让你学了一次还想参加后续课程的实战班是什么样?
    • 二代三代转录组测序分析实战班
    • 谈谈数次生信线下活动的收获和体会

    生信生物知识

    • 生物研究中不可缺少的数字概念,多少,多大,多快

    文献精读

    • CRISPR-CAS9发展历程小记
    • 一场大病引起的诺贝尔2017年生理学奖角逐
    • Science搞反狗脑 – 人脑和狗脑一样?
    • 一篇压根不存在的文献被引用400次?!揭开” 幽灵文献” 的真面目
    • 基于人工智能的文献检索,导师查找,更聪明
    • GeenMedical:文献查询、筛选、引用排序、相似文献、全文下载、杂志分区、影响因子、结果导出、杂志评述、直接投稿,一站服务
    • YANDEX搜索,不翻墙稳定使用近谷歌搜索
    • Nature我的研究对后人毫无用途:21%的学术论文自发布后从未被引用
    • SCI-HUB镜像, SSH隧道访问学校内网
    • 为了速成生物学,一位程序员探索了”爆款”基因背后的秘密
    • Nature邀请6位专家为您支招如何写出一流论文?
    • Cell:荧光标记out了,AI不用“侵入”也能识别细胞死活和类型

    Linux

    • Linux-总目录
    • Linux-文件和目录
    • Linux-文件操作
    • Linux文件内容操作
    • Linux-环境变量和可执行属性
    • Linux – 管道、标准输入输出
    • Linux – 命令运行监测和软件安装
    • Linux-常见错误和快捷操作
    • Linux-文件列太多,很难识别想要的信息在哪列;别焦急,看这里。
    • Linux-文件排序和FASTA文件操作
    • Linux-应用Docker安装软件
    • Linux服务器数据定期同步和备份方式
    • VIM的强大文本处理方法
    • Linux – Conda软件安装方法
    • 查看服务器配置信息
    • Linux – SED操作,awk的姊妹篇
    • Linux – 常用和不太常用的实用awk命令
    • Bash概论 – Linux系列教程补充篇
    • 一网打进Linux下那些查找命令

    CIRCOS系列

    • CIRCOS圈图绘制 – circos安装
    • CIRCOS圈图绘制 – 最简单绘图和解释
    • CIRCOS圈图绘制 – 染色体信息展示和调整
    • CIRCOS增加热图、点图、线图和区块属性

    R统计和作图

    • WGCNA分析,简单全面的最新教程
    • 在R中赞扬下努力工作的你,奖励一份CheatShet
    • 别人的电子书,你的电子书,都在bookdown
    • R语言 – 入门环境Rstudio
    • R语言 – 热图绘制 (heatmap)
    • R语言 – 基础概念和矩阵操作
    • R语言 – 热图简化
    • R语言 – 热图美化
    • R语言 – 线图绘制
    • R语言 – 线图一步法
    • R语言 – 箱线图(小提琴图、抖动图、区域散点图)
    • R语言 – 箱线图一步法
    • R语言 – 火山图
    • R语言 – 富集分析泡泡图 (文末有彩蛋)
    • R语言 – 散点图绘制
    • 一文看懂PCA主成分分析
    • 富集分析DotPlot,可以服
    • R语言 – 韦恩图
    • R语言 – 柱状图
    • R语言 – 图形设置中英字体
    • R语言 – 非参数法生存分析
    • 基因共表达聚类分析和可视化
    • R中1010个热图绘制方法
    • 还在用PCA降维?快学学大牛最爱的t-SNE算法吧, 附Python/R代码
    • 一个函数抓取代谢组学权威数据库HMDB的所有表格数据
    • 文章用图的修改和排版
    • network3D: 交互式桑基图
    • network3D 交互式网络生成

    扩增子三步曲

    • 1图表解读-理解文章思路
    • 2分析流程-把握分析细节
    • 扩展1:视频教程-夯实分析思路
    • 扩展2:QIIME2教程-了解分析趋势
    • 3统计绘图-冲击高分文章

    宏基因组分析专题

    • 1背景知识-Shell入门与本地blast实战
    • 2数据质控fastqc, Trimmomatic, MultiQC, khmer
    • 3组装拼接MEGAHIT和评估quast
    • 4基因注释Prokka
    • 5基于Kmer比较数据集sourmash
    • 6不比对快速估计基因丰度Salmon
    • 7bwa序列比对, samtools查看, bedtools丰度统计
    • 8分箱宏基因组binning, MaxBin, MetaBin, VizBin
    • 9组装assembly和分箱bin结果可视化—Anvio
    • 10绘制圈图-Circos安装与使用
    • MetaPhlAn2分析有参宏基因组

    NGS基础

    • NGS基础 – FASTQ格式解释和质量评估
    • NGS基础 – 高通量测序原理
    • NGS基础 – 参考基因组和基因注释文件
    • NGS基础 – GTF/GFF文件格式解读和转换
    • 本地安装UCSC基因组浏览器
    • 测序数据可视化 (一)
    • IGV基因组浏览器可视化高通量测序数据
    • 测序文章数据上传找哪里
    • GO、GSEA富集分析一网打进
    • GSEA富集分析 – 界面操作
    • 去东方,最好用的在线GO富集分析工具
    • 生信软件系列 – NCBI使用
    • Bedtools使用简介

    癌症数据库

    • UCSC XENA – 集大成者(TCGA, ICGC)
    • ICGC数据库使用
    • TCGA数据库在线使用

    Python

    • Python学习 – 可视化变量赋值、循环、程序运行过程
    • Python极简教程 (一)
    • Python教程(二)
    • Python教程(三)
    • Python教程 (四)
    • Python教程(五)
    • Python教程 (六)
    • Pandas,让Python像R一样处理数据,但快
    • Python解析psiBlast输出的JSON文件结果
    • 为啥我的Python这么慢 – 项查找 (二)
    • 为啥我的Python这么慢 (一)
    • Python资源
    • 关于Python中的__main__和编程模板
    • 莫烦Python机器学习

    NGS软件

    • Rfam 12.0+本地使用 (最新版教程)
    • 轻松绘制各种Venn图
    • ETE构建、绘制进化树
    • psRobot:植物小RNA分析系统
    • 生信软件系列 – NCBI使用
    • 去东方,最好用的在线GO富集分析工具

    Cytoscape网络图

    • Cytoscape教程1
    • Cytoscape之操作界面介绍
    • 新出炉的Cytoscape视频教程

    分子对接

    • 来一场蛋白和小分子的风花雪月
    • 不是原配也可以-对接非原生配体
    • 简单可视化-送你一双发现美的眼睛
    • 你需要知道的那些前奏

    生信宝典之傻瓜式

    • 生信宝典之傻瓜式 (一) 如何提取指定位置的基因组序列
    • 生信宝典之傻瓜式 (二) 如何快速查找指定基因的调控网络
    • 生信宝典之傻瓜式 (三) 我的基因在哪里发光 – 如何查找基因在发表研究中的表达
    • 生信宝典之傻瓜式 (四) 蛋白蛋白互作网络在线搜索
    • 生信宝典之傻瓜式 (五) 文献挖掘查找指定基因调控网络
    • 生信宝典之傻瓜式(六)查找转录因子的靶基因

    生信人写程序

    • 生信人写程序1. Perl语言模板及配置
    • 生信人写程序2. Editplus添加Perl, Shell, R, markdown模板和语法高亮

    小技巧系列

    • 参考文献中杂志名字格式混乱问题一次解决

    永久链接

    • blog.genesino.com/
    生信宝典6年前 (2018-04-22)回复
  3. #3

    谢邀(捂脸///)生信直博在读,并没有找生信工作的经验。那就从学生信的角度说一点点我的理解吧~

    1.编程

    Linux:会用Editor(e.g. VIM) 和 Shell Script (e.g. bash);推荐《鸟哥的Linux私房菜-基础学习篇》

    Python/Perl:《Python编程入门(第3版)》,Perl推荐小骆驼

    R:《R语言实战(R in action)》

    如果做数据库或者server,推荐再学PHP,MySQL,JavaScript

    2.课程

    Bioinformatics: 生物信息导论和方法(北大高歌老师的课程,讲解逻辑清晰,由浅入深),MOOC。

    因为生信有好多分支,如对基因组、蛋白质组学数据分析并给出生物学解释;在研究算法方面,如利用机器学习的各种原理来解决生物学问题(对基因序列原件的注释,如对TSS,splicing sites,promoters,enhancers,positioned nucleosomes等功能区域的注释;通过对RNA-seq,microarray,ChIP-seq等数据的分析,区分不同的疾病类型或疾病的分子标志物(biomarkers);对基因功能的注释,如Gene Ontology term;以及基因间互作调控网络的分析);比如运用统计学知识改进已有的生信软件的算法,等等。可以根据将来要做什么继续补充知识,比如看一下斯坦福大学的Andrew Ng在coursera的机器课程呀 ,看一下统计学原理呀之类的。

    3.文献和实战练习

    如果是做基因组学的生信公司

    3.1 RNA数据分析流程

    RNA-seq:可以重复一下文章中的分析Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks[1]

    当然入门之后可以更多了解相关软件啦,比如STAR,feature counts, Gfold, EdgeR, DESeq2,
    DESeq等。

    找lncRNA:Recurrently deregulated lncRNAs in hepatocellular carcinoma [2]. 这篇文章中有如何找新lncRNA的流程,可以根据文章提供的方法重复一下。

    3.2 DNA数据分析流程

    GATK那一套流程检测

    同时variant与疾病、eQTL等关联分析的话,可以了解一下STATA

    3.3
    结合机器学习和基因组学的话,可以看一下以下文献:

    DeepVariant:由谷歌Deep mind公司研发,利用卷积神经网络(convolutional neural network, CNN)检测基因组上单碱基突变(SNP)和小的插入缺失(Indel),比现有的GATK软件有更高的精确度 [3]。

    DeepWAS:根据功能单元选择出一组SNP的集合,与现有的基因组关联分析(GWAS)检测基因组上一个SNP与疾病的关系相比,DeepWAS能够更综合地分析致病基因突变,在寻找调控区域的基因突变也更为直接[4]。
    DeepSEA:预测人类基因组非编码区有功能的变异 [5]。

    DeepBind:预测DNA,RNA结合蛋白的序列特征,并能识别有害的基因突变 [6]。

    DeepCpG:在表观遗传学层面上,应用深度神经网络算法,研发了通过单细胞测序的DNA序列和不完整的甲基化修饰数据的,用来预测细胞细胞层面是否会发生甲基化,其效果优于现有软件[7]。

    暂时就想起来这么多啦~

    1. Trapnell, C., et al., Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc, 2012. 7(3): p. 562-78.
    2. Yang, Y., et al., Recurrently deregulated lncRNAs in hepatocellular carcinoma. Nat Commun, 2017. 8: p. 14421.

    3. Poplin, R., et al., Creating a universal SNP and small indel variant caller with deep neural networks. bioRxiv, 2016: p.092890.
    4. Eraslan,G., et al., DeepWAS: Directly integrating regulatory information into GWAS using deep learning supports master regulator MEF2C as risk factor for major depressive disorder. bioRxiv, 2016: p.069096.
    5. Zhou, J. and O.G. Troyanskaya, Predicting effects of noncoding variants with deep learning-based sequence model. Nature methods, 2015. 12(10): p.931-934.

    6. Alipanahi, B., et al., Predicting the sequence specificities of DNA-and RNA-binding proteins by deep learning. Nature biotechnology, 2015. 33(8): p.831-838.

    7. Angermueller, C., et al., Accurate prediction of single-cell DNA methylation states using deep learning. bioRxiv, 2016: p.055715.

    林安5年前 (2019-03-03)回复
  4. #4

    首先,生信入门很简单,别被网上那些人说的吓到!

    其次,个人认为,生信不比其他生物行业有多大优势。

    下面简单说一说,生物信息学如何入门

    了解一般的生物信息在干嘛

    开局一张图,生物信息,生物开头,就是告诉您生物信息的终极目的还是在搞生物,是要解决生物问题,所以先要知道生物信息要用到哪些技术解决哪些问题,一个生信流程又是咋样的。

    围绕上图DNA-RNA-蛋白的转录、翻译的生物过程,可浅显的理解生物信息是由DNA组、RNA组、蛋白组、代谢组等等各种组学组成。


    了解DNA/RNA等组学

    基本上擅长一种就可以去找到工作了。

    RNA组学:可细分为mRNA|miRNA|lncRNA|circRNA等组学技术

    还是一张图,可以一览各个RNAseq之间联系,

    常规RNAseq分析都分析个啥?

    前几年小编水过几篇文章,可以大致看看都在干什么:

    • Omics精进09|mRNA生信分析常规流程
    • Omics精进08|mRNA测序文库构建
    • Omics精进07|转录组之mRNA|miRNA|lncRNA|circRNA测序简介

    DNA层面:也可简单细分为WGS(Low-pass NIPT/NIPTPLUS/CNVseq、标准WGS)/WES/panel等技术。

    也可简单看看都在分析个啥?

    • Omics精进06|Gene panel检测报告解读
    • Omics精进02|临床Gene Panel设计
    • Omics精进01|临床WGS/WES/Gene Panel/Single gene异同

    上面简单介绍了各组学技术后,为了更好的分析,需要了解一下各个组学数据是怎么测序来的,知其然,才不会沦为“pipeliner”

    了解测序原理

    市面上大部分组学数据还是由欧美国家边合成边测序的仪器测序而来,可简单参考几篇水文:

    • NGS测序基础梳理01-文库构建

    为目的DNA两边添加接头,以便与测序芯片flowcell结合,

    • NGS测序原理梳理02-簇生成

    将上一步的文库与flowcell结合,扩增放大信号的过程,

    • NGS测序原理梳理03-边合成边测序

    以特殊处理的dNTP(处理后一次只能连接/合成上一个ATGC、发一种特定的光/测序)为材料,通过sbs测序,是一个化学信号–光信号-测序碱基的过程,


    生信常见的数据格式

    顺便看看生信常见的数据格式:

    • NGS数据格式梳理02-SAM/BAM格式最详细解读
    • NGS数据格式梳理01-FASTQ和FASTA格式详解

    了解linux

    生信分析计算量很大,测序数据一般都是N个G,必须上服务器,而这些服务器一般都是基予linux系统,要在上面操作,需要熟练常用的linux命令(就那么几个)

    一定要看书的话,不用买:鸟哥的Linux私房菜简体首页

    ln -s

    less -NS

    cat

    tar

    gunzip

    awk/sed/grep三兄弟

    cp

    mv

    rm -rf不要随便用

    scp

    wget/curl

    cut

    sort

    uniq

    find

    top

    xargs

    等等。。。。

    有小伙伴说我自己没服务器咋办,如果是mac的话,可以终端直接练习;

    如果是windows可以捣鼓一下vmware,或者power shell。


    了解生信软件安装

    用conda啊、docker啊、或者源码安装等等,按照软件的官网来就好了,记住遇到软件安装,上官网看文档就对了,和你安装qq没啥区别,只是放到linux系统里一样。

    conda有详细介绍过

    利用Anaconda在Windows及Linux下搭建Python环境【手把手版】


    遇到问题咋办吗?

    微软 Bing 搜索 – 国内版

    搜狗微信搜索_订阅号及文章内容独家收录,一搜即达

    google

    Bioinformatics Answers

    等等,实在不行了某度上搜也可以~

    学完上面几步基本可以把生信软件串起来了,可以尝试拿开源数据试试了~

    一定要开始做,光看没用


    学门编程语言吧

    python/perl/R生信常用。

    上面拿到了软件输出的东西,如果要进一步为所欲为的处理(筛、删、统计啊、可视化展示等等),靠linux是不行的,必须学一个语言,老一辈用perl处理文本,用c写算法,现在好多都转python了(选什么看你的喜好和你所处的团队吧,团队一致即可);可视化,个人感觉生信领域R最强。

    怎么学python

    如果是一点都不会编程的话看,

    《A Byte of Python》快速入门

    中文版,LenKiMo/byte-of-python

    英文版,swaroopch/byte-of-python

    有点基础了,再看《Python编程:从入门到实践》,看前面几章就可以了

    想精进:

    Fluent Python

    Python Cookbook 3rd Edition Documentation

    《Effective Python:编写高质量Python代码的59个有效方法》

    也可一看看小编的python学习笔记,参考书籍都在文末

    详解Python数值、字符串处理
    详解Python列表推导式|迭代器|生成器|匿名函数
    详解pandas DataFrame, Series常用方法
    详解Python模块、包、库
    详解Python CONDA
    详解Python字典、集合
    详解Python模块化编程-自定义函数
    详解Python好用的内置函数

    小编的python可视化学习笔记

    怎么学perl

    Perl学习11之perl模块详解(二)
    Perl学习15之perl读excel表格
    Perl学习16之读文件,存入哈希,输出到文件
    Perl学习19之生信简单运用(三)
    等等。。。。

    怎么学R?

    你是如何自学R语言的?
    生物信息初学者该如何系统性的掌握 R语言?
    R语言基础(一)
    R语言基础(2)-向量|矩阵|数组|数据框|数据IO|实用函数
    R语言基础(3)-变量|运算符|变量简单操作

    小编的R可视化学习笔记


    灵活的构建分析流程

    Snakemake – Snakemake 6.4.0 documentation

    Nextflow’s documentation!


    不得不学的统计学

    《中国卫生统计》

    《生物医学研究的统计方法(第二版)》


    想更精进生信

    盘大牛生信软件的底层原理吧

    多参加行业会议

    多交流

    多阅读前沿文献


    推荐阅读

    pythonic生物人:Python可视化笔记43篇合集(建议收藏)

    pythonic生物人:从哪些方面着手提高Python?Python社区“老司机们”的这本书讲清楚了!

    Python 从入门到精通推荐看哪些书籍呢?

    你所读的统计学方向,有哪些不错的讲义(Notes)?

    你是如何自学R语言的?

    pythonic生物人:13个高清图助快速上手Python: NumPy/Pandas/SciPy/Matplotlib?

    有哪些你看了以后大呼过瘾的数据分析书?

    pythonic生物人:丰富的Python可视化“武器库”:从PyViz到Matplotlib

    GitHub上都有哪些值得关注学习的R开源项目?

    机器学习、数据科学 如何进阶成为大神?

    作为一个研究生,有哪些你直呼好用的科研神器?

    作为统计的博士生,你都读过哪些对你影响深远的统计书籍?

    欢迎关注❤️:pythonic生物人

    pythonic生物人1年前 (2022-11-21)回复
  5. #5

    先说结论

    通用能力:R语言、linux、高通量测序

    进阶能力:python、数据挖掘算法

    高阶能力:java或者C++,机器学习

    从一般性的工作角度来讲,通用能力+进阶能力即可。

    那么关键来了,该如何提高相关的能力呢?

    复制我在如何学习生物信息学下的回答

    你真的知道什么是生物信息学吗?

    生物信息学和应用生物信息学不知道大家有没有分清,现在生信炒的很热,说的大多也都是基于测序技术的发展,目前来看,大多数人理解的生信都是应用生物信息学,题主是临床医学,那么可以断定是应用生物信息学了。

    什么意思呢?就是以生物信息学作为工具,诸如此类,入门相对容易,也并不需要太扎实恶的数理基础和计算机编程能力,而更严谨的生物信息学目前更多的是基于全组学的软件和算法的开发,这个前景是非常广阔的,也是需要很多优秀的生信人为之努力的,在这一块的关键核心技术是掌握在国外的,有点可惜,但是国内的生信时间还不长,相关产业还么有那么高端,未来还有很大的进步空间,相信未来可期。

    聊一聊应用生物信息学

    很多人是生物学出身,生信的一些大牛也曾说过不用过分迷恋生信,如果你能够把这个工具学好,更好的去解决生物学问题,那是极好的。

    还是建议编程基础不强的的尽量不要做硬生信,就是软件开发和算法,这真的需要时间的积累,希望不要被很多人忽悠,做做项目,硬啃下几本书,一年半载就开发算法。这样的回答其实挺不负责任的,每个人的人生每一步都至关重要。如果有志于做这方面的,后期可以一起探究和学习,这里就不展开讲了。

    如果做生信需要掌握什么?

    1、首先是生物学知识,我的导师在面试我的时候考察了很多恰恰不是编程的知识,而是生物学的知识,她说很多博士对于基因结构的理解都不是很深刻。这里总结了导师讲的这方面的内容,希望有所帮助。

    这可能是全网最详细的真核生物基因结构讲解

    这一次对于生物学的知识我更加建议是根据自己所在领域的文献查漏补缺,大量阅读本领域的文献,了解自己所需要的基础知识。

    2、测序原理

    目前市面上测序技术层出不穷,二代三代技术交相辉映,眼花缭乱,认准一个全基因组测序或者转录组测序都可以,这些是基础,一通百通,初学者通一门比门门都懂,但是不精通要好的多。二代illumina测序十分经典,其中的原理一定要特别通透。

    可以先看下视频:

    生信基础

    这一部分我进行了整理归类,也是按照学习路径来分的~

    总论

    1. 我要自学生信之生信基础:生信数据库大全
    2. 生物信息学常见干湿实验原理汇总(文章推荐)
    3. 实验室常用分子实验技术原理汇总
    4. 这可能是全网最全的真核生物基因结构
    5. 生物信息学必须要会的87个名词解释

    转录组

    1. 我要自学生信之生信基础:测序技术及其原理
    2. 我要自学生信之生信基础:FASTA 与 FASTQ
    3. 我要自学生信之生信基础-转录组代码篇:软件安装+数据下载+过滤质控
    4. 我要自学生信之生信基础-转录组:转录组原理
    5. 我要自学生信之生信基础-转录组:WGCNA全流程分析(入门篇)
    6. 我要自学生信之生信基础:拼接原理
    7. 我要自学生信之生信基础-转录组:分析流程大全解,看这一篇就够了
    8. 我要自学生信之生信基础:基因预测和功能注释
    9. 转录组完结篇:这可能是全网最详细的转录组教程(建库+测序+质控过滤+比对+定量)

    表观遗传

    1. 我要自学生信之生信基础-表观遗传:乳糖操纵子原理
    2. 我要自学生信之生信基础-表观遗传:基于表观遗传的NGS技术概览
    3. 我要自学生信之生信基础-表观遗传:chip-seq结果解读及应用
    4. 我要自学生信之生信基础-表观遗传:精读ATAC开山之作
    5. 我要自学生信之生信基础-数据库:关于KEGG,你想知道的都在这

    3、项目经历

    重复一篇数据好的转录组文章,这里可以给大家推荐一个,数据简单,适合新手

    Transcriptome analysis of an apple (Malus × domestica) yellow fruit somatic mutation identifies a gene network module highly associated with anthocyanin and epigenetic regulation

    我要自学生信之生信基础-转录组:分析流程大全解,看这一篇就够了

    另外如果有机会一定要去实习:

    比如华大、诺和这些,用来学习是可以的,大多数基因公司对实习的要求是不高的,勇敢向前拼

    4、计算机基础

    1)linux

    基因数据分析,极度不推荐在Windows下完成,有很多的工具不支持,而且不利于学习,也不利于我们对数据的理解,不过,我们不需要成为运维专家,对于生物信息研究人员来说,只有了解Linux的一些常用命令即可。我也总结了常用的一些命令

    分为几个部分

    软件安装、文件操作、文本处理(awk、sed、grep等)、上传下载、目录(绝对路径、相对路径),基本熟悉这些就可以上手了,后续有需要的命令大家可以自己去找。我自己也总结了部分,还在继续整理中。

    1. 我要自学生信之linux基础:轻松学会安装虚拟机,纯保姆级教程
    2. 我要自学生信之linux基础:3分钟搞定生信linux常用命令

    也推荐一个学习的网站。

    2)编程语言

    关于R语言学习路径:

    基础技能入门:安装加载包、数据结构、变量类型(str)、数据导入/导出(read)、数据筛选数据(filter/select)、合(merge)、匹配(match)、追加(mutate)、长宽转换(reshape)、数据索引(index)、循环(while.for)、判断(if)、排序(sort/rank)、缺失值(is.na)、正则

    这一部分我推荐你看一些书籍,直接对着书上面进行基本技能练习,在这个过程中head、str、help函数的使用频率>=1000次是极佳的。哪一本都可以,比如这一本的第二版前三章

    这个时候你的基础已经初步具备了,下面咱们就要开始做数据分析了。R做数据分析有些人比较喜欢用r-base(基础版本),当然我个人比较倾向于tidyverse(可以理解为加长升级版本)。使用前需要先安装然后加载他(安装就像你买了回来,加载表示你要用他了)。你以为这些就可以直接画图了吗?各种脏数据扑面而来,60%的时候就花费在了数据预处理上,我们看一下数据处理的流程。

    第一步:数据预处理:

    下面就开始第一步了,这里推荐完成 R语言数据处理120题 一定不要复制粘贴,一个一个敲起来。优秀的预处理能力是你的数据分析中的锋利的宝剑。尤其是在缺失值、异常值离群点、冗余数据的处理技巧上。

    第二步:数据可视化

    做数据可视化的过程中会涉及一些统计的知识,那么下面的一些统计基础就派上了用场。

    如果是医学生,恰好有一本深得人心的医学统计书籍。

    我自己也在着手更新:

    1. 生物信息学必备入门级统计学概念:错过不知道再等多久
    2. 我要自学生信之统计学:跳出假设检验的逻辑坑
    3. 我要自学生信之统计学:第六章-总体均数的估计
    4. 我要自学生信之统计学:如何选择假设检验的方法(t检验、U检验、卡方检验、F检验等)
    5. 我要自学生信之统计学:t检验(上)
    6. 我要自学生信之统计学:方差分析
    7. 我要自学生信之统计学:多重比较
    8. 我要自学生信之统计学:二项分布和Poisson
    9. 我要自学生信之统计学:[公式] 检验
    10. 我要自学生信之统计学:模型预测的评价(准确度、精确度、敏感度、特异性)

    其实什么类型的数据画什么图都是很有讲究的

    至于画图的细节每一种类型的图都需要详细进行讲解,我的ggplot2科研绘图篇也即将开始更新了,可以和小柯一起学画图。先来张看一看效果~

    赶着学习的可以多看看书,专门挑ggplot2画图这一节即可,理解底层画图逻辑(像PS的图层)。看视频虽然也讲的很清晰,但是最好还是查漏补缺用。我这里也更新了一些:

    1. 一文搞懂ggplot2:老板再也不用担心我的科研绘图
    2. ggplot2高效实用指南 (可视化脚本、工具、套路、配色)
    3. 一文搞懂常用R语言统计值计算:打倒描述性统计拦路虎

    第三步:数据建模

    许多的数据可视化后不用建模就可以得出一定的结论,有些复杂的数据需要通过分类、聚类等不同的方式进行分析。可以分为探索性分析和预测性分析。这一部分我会单独在我的专栏进行讲解,这里就不展开了。至于深度学习的部分还是推荐用python。

    在分析过程中,不同的小伙伴基础各有不同,有基础的同学可以直接上手,拿项目练习,如果没有太多的基础,是一个小白初学者,可以考虑看一些免费的小课程来达到对于数据分析整体把握的程度,重点是要筑基,理解数据分析的基础概念同步进行简单的操作,欲速则不达。

    关于R语言学习的一些疑虑

    1、没有编程基础怎么办

    R是我学习的第一门正式学习的编程语言,零基础也可以学会,达成目的即可,有时候只是为了画图而已,坚持一切编程都是纸老虎(怕就永远都不会)。

    2、前面的学习路径还是不是很清晰,能不能简单再顺一下

    • R语言实战前三章
    • 数据处理120题
    • 基本图形+统计学了解
    • ggplot2科研绘图

    3、学习路径太慢,可不可以直接开始科研绘图

    亦可,边学边整理数据处理和统计相关知识,但是前面的基础技能还是需要看完,后期需要大量项目来进行补足,题海战术在语言学习中依然适用。你是不是想和我说没有办法实战怎么办?我……好人做到底,论文中的图片哪里来,R绘图来,数据哪里来,论文里面来(拿起论文-下载数据-开始画图

    R语言的学习教程我已经开始陆续更新,更加贴近实际引用,解决问题:

    R总论

    1. R语言入门:你想知道的都在这里
    2. R语言入门推荐:玩转数据处理120题(R语言tidyverse版本)

    R绘图

    1. 一文搞懂ggplot2:老板再也不用担心我的科研绘图
    2. ggplot2高效实用指南 (可视化脚本、工具、套路、配色)
    3. R语言:添加p-value和显著性标记

    R语言与统计

    1. 一文搞懂常用R语言统计值计算:打倒描述性统计拦路虎
    2. R语言统计篇:t检验
    3. R语言统计-回归篇:简单线性回归
    4. R语言统计-回归篇:多项式回归与多元线性回归
    5. R语言统计-回归篇:回归诊断

    关于Python语言:

    关于python学习,我不推荐一开始就看太难的书籍,编程语言也很容易劝退,也不希望你只是在单纯的记忆理论,因为那样并没有太大的效果,我个人觉得还是从实战出发:

    推荐一本入门的书籍:

    理解这本书大约半个月左右的时间,并不会太耽误你的时间。看这本书实战的同时我还希望你做一些很通用的小项目,先在实验楼上进行学习,可以验证你的答案是否正确,这在初期是非常重要的,你一定要能够明确知道你做的是否正确:

    与此同时,我常常遇到一些完全零基础的初学者,一看到晦涩难懂的代码就直接放弃,还有一部分人学习的过程中不注意代码规范,写出来的代码可读性很差,可以推荐大家看下百词斩的夜曲编程,这个软件最好的一点是规范性,会把细节的问题做成题目加深理解,比如代码缩进,同时支持在线编程,利于因为软件安装劝退的人

    另外很多同学都处于一个比较忙的状态,这个程序可以在微信公众号学也可以网页学,公众号直接关注夜曲编程,网页直接搜索就可以,还是比较方便的。很多初学的编程者路径不正确,对于很对概念理解都非常不清晰,这对于后续的学习是非常不利的,基础不牢,地动山摇,这个软件里的概念卡可以帮助⼤家理解和记忆编程概念,最后的思维导图也可加强记忆。这一点对于初学者还是非常重要的。

    有一定的基础之后,也许你已经摩肩擦掌准备迎战了,这个时候的你需要有一个大神带带你,一个人闷头苦干虽然很英雄,但我并不认为这样的英雄主义可以提高你的效率,开始入手github吧,如果你对github不算很熟悉,我恰恰写了一篇github的文章:自学生信之番外篇:一键解锁github 希望能够有所帮助

    github上面的python100天的项目我本人极为推崇。它可能不是最好的,但是对于初学者是比较适合的,有人带你学习是一件非常幸福的事情。先放一下github的链接。

    也许你会觉得有点难,突然觉得自己好婆妈,没有关系,作者把前面入门的15天重新做了一个50天练习的项目。

    我希望你能够着重注意一下正则表达式的应用(生信中你将经常用到他们): 正则表达式30分钟入门教程

    这里我特意提及Numpy、Pandas、Matplotlib这三个库,着实是因为他们很重要。

    Numpy:利用Python科学计算的基础包,对Numpy的掌握将会帮助你有效地使用Pandas等

    Pandas:结构和操作工具,能够使Python数据分析更加快速和容易

    Matplotlib和seaborn:Python可视化库。散点图、箱线图、小提琴图等都是手到擒来。

    自学生信-机器学习python数据可视化:一节课入门seaborn

    如果你能坚持走几年生物信息的道路,我想未来在生物信息学领域的深度学习会大量运用的,这几个库的熟练应用会给你一些助力,如若有机会你自己也可以尝试实现一些数据挖掘的算法,解锁一些你对于python的期待:数据挖掘18大算法实现以及其他相关经典DM算法

    一点建议:我不是很希望你看大部头的视频,我希望那些是你在遇到一些问题无法解决时用来查漏补缺的,我看过很多的pyhon学习视频,大多大而全,即便可以坚持,却容易陷入耗时久远而无法解决问题的困境,没错,我在这样的循环中用了一年多才醒悟。走错的路不希望其他人重走自己的路,仅此而已

    3)编程原理

    当你有了一些基础后,可以开始写一点点代码了,那就要考虑代码的效率问题了,以及如果能够写出优美而省时的代码。这就要依靠数据结构和算法来实现了。

    推荐入门书籍:

    数据结构与算法篇:

    1. 我要自学生信之数据结构与算法:算法简介
    2. 我要自学生信之数据结构与算法:选择排序
    3. 我要自学生信之数据结构与算法:递归
    4. 我要自学生信之数据结构与算法:快速排序
    5. 我要自学生信之数据结构与算法:散列表
    6. 我要自学生信之数据结构与算法:广度优先搜索

    这个一脉相承,是用python写的,有学C的强推大话数据结构

    关于计算机这块可以看下之前我的回答,比较详细

    5、统计学+算法

    生物信息离不开统计学,假设检验,贝叶斯推断、随机森林,SVM,回归分析,PCA等等等等,R语言高级绘图的部分和这一块紧密相连。

    关于贝叶斯这篇文章写的自认可以(不要脸的自夸)

    统计基础(在R语言的部分已经讲)

    再加一本入门书籍推荐(除了医学统计学):

    6、机器学习

    西瓜书+南瓜书,周志华的西瓜书确为机器学习入门的经典教材,但是其中很多公式的推导初学时真的看不懂啊。南瓜书就解决了这一点,带你的数学水平提到周老师眼中大二下的水平。

    南瓜书的电子版恰好准备了电子版,想要的来领取吧。

    这个部分有点难度,B站吴老师的机器学习可以作为参考。

    专栏内也收录了一些经典的算法:

    1. 我要自学生信之数据挖掘:朴素贝叶斯
    2. 我要自学生信之数据挖掘:范数、凸集、凸优化、梯度
    3. 我要自学生信之数据挖掘:最优化条件
    4. 机器学习算法实践-岭回归和LASSO
    5. 支持向量机 SVM
    6. 我要自学生信之数据挖掘:从SVD到PCA到LSA
    7. 极大似然估计与最大后验概率估计
    8. 人人都懂EM算法
    9. 神经网络15分钟入门!足够通俗易懂了吧

    7、批判性思维

    重要性就不言而喻了,如果你面临一个事件或者一个项目提不出一个问题,或者思维混乱,那么你很难在这条路上走的很远。很多人可能觉得不甚重要,但要是按照重要性来排,我一定把它排在第二位。批判性思维的训练是需要长期进行的,是后天形成的。

    推荐学习书籍:

    8、好奇心+终身学习

    多阅读相关领域顶刊的文章,持续下去,不出半年,定有所成,很多人都想一口气吃成个胖子,但学习往往不是一蹴而就的,树立终身学习的理念,站在巨人的肩膀上起点会高很多。

    张一柯1年前 (2023-02-01)回复

大智网汇

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 wolfba@q.com 举报,一经查实,本站将立刻删除。

投稿&软文

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

微信扫一扫打赏

登录

找回密码

注册