genomic是什么意思,genomic中文翻譯,genomic發(fā)音、用法及例句
?genomic
genomic發(fā)音
英:[d?i:'???m?k] 美:[d?i:'?o?m?k]
英: 美:
genomic中文意思翻譯
adj. 基因組的;染色體組的
從RefSeq數據庫批量微生物基因組
在微生物基因組研究的探索中,RefSeq數據庫無(wú)疑是一把金鑰匙。它儲存了海量高質(zhì)量的基因組,并且NCBI的專(zhuān)有注解工具對其進(jìn)行了詳盡的標注,為科研人員提供了寶貴的資源。但你是否曾有過(guò)這樣的念頭:能否一次性下載整個(gè)數據庫,來(lái)滿(mǎn)足大規模研究的需求?答案是肯定的,讓我們深入了解如何高效地實(shí)現這一目標。
數據庫規模與數據量
截至今日,RefSeq數據庫已收錄超過(guò)20萬(wàn)個(gè)基因組,若全部是微生物樣本,按照每個(gè)基因組平均5MB的容量計算,這將是一個(gè)驚人的1TB數據量。壓縮后,存儲需求將大大降低,足以容納在本地硬盤(pán)。當然,我們可能更關(guān)注特定物種的基因組或根據ID下載特定集合,這就是批量下載的靈活性所在。
下載方法揭秘
雖然常規的搜索下載方式適合單個(gè)基因組,但面對大批量下載,NCBI的FTP服務(wù)器隱藏著(zhù)更便捷的通道。我發(fā)現兩種實(shí)用的下載策略:
方法一:自動(dòng)化工具
GitHub上的NCBI-genome-download項目是第一個(gè)選擇。這是一個(gè)Python腳本,通過(guò)物種名或taxid等參數,可高效下載指定物種的所有基因組。使用詳情請參考其README文檔,這里不再贅述。
方法二:直接抓取FTP信息
更為靈活的方法來(lái)自NCBI FTP FAQ頁(yè)面,那里有兩個(gè)關(guān)鍵文件:一個(gè)包含了所有基因組的詳細信息,另一個(gè)則包含FTP鏈接。RefSeq的summary文件約58MB,包含20萬(wàn)條記錄,其中包含accession ID、物種名稱(chēng)、taxid等信息,最后一列正是FTP下載地址的所在。
借助這份summary文件,Bash高手們可以編寫(xiě)腳本,按需篩選和下載。例如,要下載所有大腸桿菌(Escherichia coli)的基因組:
# 提取E. coli信息
grep "Escherichia coli" assembly_summary_refseq.txt > E.coli.txt
# FTP鏈接在第20列
for link in $(cut -f 20 E.coli.txt); do
# 文件名基于FTP路徑
id=$(echo ${link#*/})
# 下載genomic.fna.gz
wget ${link}/${id}_genomic.fna.gz
# 選擇下載其他文件類(lèi)型,如gbff注釋
# 解壓縮文件
gunzip ${id}_genomic.fna.gz
done
但請注意,直接搜索Escherichia coli可能會(huì )包含噬菌體和病毒等非目標物種,所以推薦使用taxid進(jìn)行精準篩選。此外,處理原始文件名時(shí),可能會(huì )遇到重復的菌株名稱(chēng)或包含斜線(xiàn)的命名問(wèn)題,需要額外處理以適應文件系統。
總結與注意事項
批量下載RefSeq數據庫的微生物基因組是完全可行的,只需要巧妙利用提供的資源和腳本工具。但務(wù)必注意篩選和預處理,確保下載的數據準確無(wú)誤?,F在,你的微生物基因組研究之旅已經(jīng)準備就緒,只等你啟動(dòng)了。
基因的定義到底是什么
(本文說(shuō)給大眾看的,就是想告訴大家,你們都對)
如果真要給基因一個(gè)簡(jiǎn)明定義:那就是有遺傳效應的核酸片段。我認識的港大博士也寫(xiě)過(guò)一個(gè)類(lèi)似的答案。
基因的定義目前已經(jīng)被徹底用爛了,曾經(jīng)有人說(shuō),基因的定義就是沒(méi)有定義。
——你說(shuō)基因是DNA?RNA也可以是基因。就比如題主說(shuō)的RNA病毒——你說(shuō)基因編碼蛋白質(zhì)?不編碼蛋白質(zhì)的也是基因。比如很多non-coding gene,甚至還有一堆非編碼RNA,甚至人家干脆啥都不編碼,就是簡(jiǎn)單的調節一下。
——你說(shuō)基因多長(cháng)?一個(gè)大的染色體叫基因,一個(gè)幾百的外顯子還叫基因(比如有時(shí)候轉基因只丟個(gè)外顯子進(jìn)去)。甚至一個(gè)點(diǎn)突變都可以叫基因。(比如,xxx帶有了勇士基因,這種最常見(jiàn)的說(shuō)法,其實(shí)就是一個(gè)點(diǎn)突變)
——甚至還有假基因(關(guān)鍵是現在發(fā)現,假基因也不是白蓮花啊,這家伙能競爭抑制(真)基因)現在可以說(shuō)是上到CNS,下到路邊的大爺,都可以談基因。如果真要給基因一個(gè)定義:那就是有遺傳效應的核酸片段。就像 @Xi Yang 提到wiki的概念gene is any discrete locus of heritable, genomic sequence which affect an organism's traits by being expressed as a functional product or by regulation of gene expression 仔細看一下1,discrete 實(shí)體的,至少基因不是虛幻的東西2,traits特征,啥特征?這就真的是包羅萬(wàn)象了,耳朵鼻子那是特征,身高體重那是特征,血流快慢那是特征,細胞大小形狀溫度也是特征,甚至一個(gè)細胞內的某個(gè)離子濃度大小,那還是特征。一切都是特征,基本上就等于啥都沒(méi)說(shuō)。3,affect by expression or regulation這里面還是一個(gè)包羅萬(wàn)象的概念表達成為function product,就是有功能的產(chǎn)品,蛋白質(zhì),RNA都行;調節的話(huà),DNA自己都可以調節。我舉個(gè)例子,啥叫基因:APOE,這是個(gè)載脂蛋白基因BRAFP1 ,這是2015年cell里的一個(gè)基因,它是BRAF的假基因,但是它可以調節來(lái)發(fā)揮作用,所以也是基因他們一起發(fā)揮作用(就是regulation了)
分享科學(xué),分享世界!
版權聲明: 本站僅提供信息存儲空間服務(wù),旨在傳遞更多信息,不擁有所有權,不承擔相關(guān)法律責任,不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責。如因作品內容、版權和其它問(wèn)題需要同本網(wǎng)聯(lián)系的,請發(fā)送郵件至 舉報,一經(jīng)查實(shí),本站將立刻刪除。