行业产品

  • 行业产品

上海源叶生物科技有限公司


当前位置:上海源叶生物科技有限公司>技术文章>如何从零开始掌握生物信息学分析(新手宝典)
技术文章

如何从零开始掌握生物信息学分析(新手宝典)

阅读:474发布时间:2015-8-13

今天的世界大不同,表现在生命科学研究领域,就是一切都开始进入了大数据时代,无论是DNA序列,显微图片,还是质谱数据,研究人员都越来越需要对这些庞大的信息进行收集、整合、处理和诠释。
对于许多生物学家们来说,这并不容易完成,传统的科研培训方式主要集中于科学的基础原理和实验方法,而不是计算机编程和数据统计,因此当不少研究人员发现自己需要面对大量的数据量时,他们不知道如何处理这些问题。
目前其实也不乏现成的计算工具,而且不少都是免费的,但对于门外汉来说还是有些难。通常情况下研究人员还是需要深入了解这些界面并未友好的程序,才能运行,而这需要计算运行的深厚知识。
这就会导致研究人员在进行大数据研究的时候,不得不自己编写一些程序来进行可重复和得到证实的信息处理。然而这些过程也需要小心处理,一不留意犯错了,就有可能危及数据本身。
近期The Scientist杂志了几位科学程序员,了解他们所使用的工具是什么,如果是菜鸟需要进行哪些训练等。
选择一种语言

生物学家可以从各种各样的编程语言中选择一种,对于许多应用来说,随便选择一种都可以,不过目前zui流行的可能就是Python 和 R。“就目前而言,这就像是科学研究的二重奏",来自加州大学戴维斯分校的生物信息学家Vince Buffalo说,他刚完成了一本名为《生物信息学数据分析技巧》(O’Reilly Media Inc.)的新书。
Python 和 R相对来说都比较好用,但前者能完成多项任务,而后者主要针对的是统计方面的内容,两种语言都有其各自的使用用户群,因此具有特定功能预生成代码(prebuilt code)数据文库,比如以R语言为基础的Bioconductor Project (www.bioconductor。。org),能为显微,测序和芯片数据提供模块。另外Python 公共文库也有:Anaconda (continuum.io/downloads)。
来自华盛顿大学基因组科学系的助理教授Cole Trapnell利用R语言完成了单细胞基因组数据集的处理,“单一细胞基因组学问题牵涉到许多的统计学方面的内容,R语言很适合。"
此外,还有一种受到大家认可的语言,那就C/C++(Julia (www.julialang。。org)),这种语言特别合适用于那些相对较慢或内存密集型任务,Trapnell说。
如果能将Python的语法,R语言的图形灵敏性和C++的速度结合在一起,那就了,“这也就是说,这种代码很好编写,而且也很快,",来自加州大学戴维斯分校的遗传学副教授Titus Brown说,但这需要你花费大量经历掌握这些语言,他建议,可以选择你同事已经在应用的语言,这样他就能帮助你解惑。
所需的工具
UNIX 和 Linux系统都有预安装软件,如果你没有,那么通过操作系统管理员也很容易获取。Macs系统包含一个现成的Python 解释器和C/C++ 编译器,但必须单独安装 R(www.r-project。。org)。Windows系统在默认状态下,不包含任何一种编程语言,因此你可能需要自己安装。
程序员还需要的一个工具就是一个好用的文本编辑器,这是用于处理纯文本文件的程序,与之相对的就是处理特殊格式的程序,如Microsoft Word。核心程序员通常喜欢使用命令行编辑器 vi 或 emacs,在Linux 和 Mac系统中这两者都有预装。现在也有一些很强大的可配置程序,但是对于新手来说很难掌握,“这要求你自己想代码,因此我还是建议使用自己擅长的方法,"Trapnell说。
同时你还需要找到一种能够用特定颜色标记特殊语言关键词(“syntax highlighting"),语法检查 (比如说要能找到错误的方括号和圆括号),代码格式,以及处理多种文件的编辑器。
常用的两种就是Windows系统的Notepad++ (notepad-plus-plus.org),以及Mac和Windows、Linux系统通用的Sublime Text (www.sublimetext。。com)。同时还有一种Mac界面可用的AquaMacs (aquamacs.org)。
“我向我的学生强调的关键一点就是,尽量少用鼠标,"威斯康辛大学麦迪逊分校生物统计学和医学信息学教授Karl Broman说,“每当你将手从键盘中移开的时候,就在减慢速度。"
另外,如果你计划在某个平台(如 Mac 或 Windows)上从一种特殊语言开始的话,那么也许你应该尝试一下集成开发环境(IDE,integrated development environment),这是用于程序开发环境的应用程序,一般包括代码编辑器、编译器、调试器和图形用户界面工具,这能简化你的工作。
Mac C/C++程序员可以用免费的Xcode (developer.apple.com/xcode), Windows 用户可以使用Microsoft Visual Studio (www.visualstudio。。com)。而对于 R 编程来说,常用的一种选择就是RStudio (www.rstudio。。com)。Eclipse IDE (eclipse.org/ide)是一种支持多种语言的模块化工具,所有这些平台的基本版本都是免费下载,有些适用于用户的附加功能也可以获取。


环保在线 设计制作,未经允许翻录必究 .      Copyright(C) 2021 https://www.hbzhan.com,All rights reserved.

以上信息由企业自行提供,信息内容的真实性、准确性和合法性由相关企业负责,环保在线对此不承担任何保证责任。 温馨提示:为规避购买风险,建议您在购买产品前务必确认供应商资质及产品质量。

会员登录

×

请输入账号

请输入密码

=

请输验证码

收藏该商铺

登录 后再收藏

提示

您的留言已提交成功!我们将在第一时间回复您~