當前位置： > 投稿>正文

sout縮寫(xiě)是什么意思，sout的全稱(chēng)及含義，sout全稱(chēng)意思大全

2025-06-17 投稿

sout縮寫(xiě)是什么意思

SOUT英文含義

SOUT的英文全稱(chēng)：Small Optical User Terminal | 中文意思：───小光用戶(hù)終端

如何入門(mén)Python數據分析庫Pandas？

pandas 是基于NumPy 的一種工具，該工具是為了解決數據分析任務(wù)而創(chuàng )建的。Pandas 納入了大量庫和一些標準的數據模型，提供了高效地操作大型數據集所需的工具。pandas提供了大量能使我們快速便捷地處理數據的函數和方法，它是使Python成為強大而高效的數據分析環(huán)境的重要因素之一。

Pandas 是python的一個(gè)數據分析包， Pandas的名稱(chēng)來(lái)自于面板數據（panel data）和python數據分析（data analysis）。

使用可以參考文章

pandas指南：

https://www.toutiao.com/i6650277512960016900/

如何入門(mén)Python數據分析庫Pandas？

在這篇文章中，我將概述如何學(xué)習 Pandas。首先要給那些不熟悉 Pandas 的人簡(jiǎn)單介紹一下，Pandas 是 Python 生態(tài)系統中最流行的數據分析庫。它能夠完成許多任務(wù)，包括：

* 讀/寫(xiě)不同格式的數據

* 選擇數據的子集

* 跨行/列計算

* 尋找并填寫(xiě)缺失的數據

* 在數據的獨立組中應用操作

* 重塑數據成不同格式

* 合并多個(gè)數據集

* 先進(jìn)的時(shí)序功能

* 通過(guò) matplotlib 和 seaborn 進(jìn)行可視化操作

盡管 Pandas 功能強大，但它并不為整個(gè)數據科學(xué)流程提供完整功能。Pandas 通常是被用在數據采集和存儲以及數據建模和預測中間的工具，作用是數據挖掘和清理。

數據科學(xué)管道

對于典型的數據科學(xué)家而言，Pandas 在數據管道傳輸過(guò)程中扮演著(zhù)非常重要的角色。其中一個(gè)量化指標是通過(guò)社區討論頻率趨勢（Stack Overflow trends app）。

現在，Pandas 在 Stack Overflow 上的活動(dòng)居 Python 數據科學(xué)庫之首，占整個(gè)站點(diǎn)新問(wèn)題提交總數的 1%。

Stack Overflow 的濫用

從上面的圖標中，我們發(fā)現很多人都在使用 Pandas，但同時(shí)也對此很困惑。我在 Stack Overflow 上回答了關(guān)于 Pandas 的約 400 個(gè)問(wèn)題，親眼目睹了大家對這個(gè)庫理解得多糟。Stack Overflow 給程序員提供了極大的便捷，但同時(shí)也產(chǎn)生了一個(gè)巨大的缺點(diǎn)。因為程序員能瞬間找到問(wèn)題的答案并獲得滿(mǎn)足感，導致人們不愿意仔細閱讀自己擁有的文獻和其他資源了。其實(shí)我建議程序員每年花幾個(gè)星期的時(shí)間不用 Stack Overflow 解決問(wèn)題。

手把手教你學(xué) Pandas

幾個(gè)星期前有人詢(xún)問(wèn)我如何練習使用 Pandas，因此我在 r/datascience subreddit 上發(fā)布了一個(gè)簡(jiǎn)單的指南。下面的內容將詳細說(shuō)明那篇文章表達的信息。

首先，你應該擺正目標。你的目標不是真的要「學(xué)習 Pandas」。了解如何在庫中執行運算是很有用的，但這和你在實(shí)際數據分析中需要用到的 Pandas 知識并不一樣。你可以將你的學(xué)習分為兩類(lèi)：

* 獨立于數據分析，學(xué)習 Pandas 庫

* 學(xué)習在實(shí)際數據分析中使用 Pandas

打個(gè)比方，這兩者的區別類(lèi)似于，前者是學(xué)習如何將小樹(shù)枝鋸成兩半，后者是在森林里砍一些樹(shù)。在我們詳細討論之前，讓我們先總結一下這兩種方法。

獨立于數據分析，學(xué)習 Pandas 庫：此方法主要包括閱讀、更關(guān)鍵的是探索 Pandas 官方文檔。（http://pandas.pydata.org/pandas-docs/stable/）

學(xué)習在實(shí)際數據分析中使用 Pandas：此方法涉及查找和收集真實(shí)世界的數據，并執行端到端的數據分析。Kaggle 數據集是查找數據的好地方。不過(guò)我強烈建議你避免在流暢使用 Pandas 前使用 Kaggle 的機器學(xué)習組件。

交替學(xué)習

在你學(xué)習如何使用 Pandas 進(jìn)行數據分析的過(guò)程中，你應該交替學(xué)習 Pandas 文檔的基礎以及在真實(shí)數據庫處理中的 Pandas 運用。這非常重要。否則，你很容易在掌握完成大部分任務(wù)所需的 Pandas 基礎知識之后對他們產(chǎn)生完全的依賴(lài)。但其實(shí)在更高級的運算存在時(shí)，這些基礎又顯得太笨重了。

從文檔開(kāi)始

如果你此前從沒(méi)有接觸過(guò) Pandas 但是有著(zhù) Python 的足夠的基礎知識，我建議你從 Pandas 官方文檔開(kāi)始。文檔寫(xiě)得非常詳細，現在共有 2195 頁(yè)。即使文檔的規模如此龐大，它還是沒(méi)有涵蓋每一個(gè)操作，當然也不涵蓋你在 Pandas 中能使用的函數/方法與參數的所有組合。

充分利用文檔

為了充分利用文檔，不要只閱讀它。我建議你閱讀其中的 15 個(gè) 部分。對每個(gè)部分，新建一個(gè) Jupyter notebook。如果你對 Jupyter notebook 不太熟悉，請先閱讀來(lái)源于 Data Camp 的這篇文章：https://www.datacamp.com/community/tutorials/tutorial-jupyter-notebook

建立你的首個(gè) Jupyter notebook

請從「數據結構入門(mén)（Intro to Data Structures）」這個(gè)章節開(kāi)始。在你的 Jupyter notebook 旁邊打開(kāi)這個(gè)頁(yè)面。當你閱讀文檔時(shí)，寫(xiě)下（而不是復制）代碼，并且在筆記本中執行。在執行代碼的過(guò)程中，請探索這些操作，并嘗試探索使用它們的新方法。

然后選擇「索引和選擇數據（Indexing and Selecting Data）」這個(gè)部分。新建一個(gè) Jupyter notebook，同樣編寫(xiě)、執行代碼，然后探索你學(xué)到的不同操作。選擇數據是初學(xué)者最難理解的部分，我專(zhuān)門(mén)在 .locvs .iloc 上寫(xiě)了一個(gè)長(cháng)篇文章（https://stackoverflow.com/questions/28757389/loc-vs-iloc-vs-ix-vs-at-vs-iat/47098873#47098873），你可能想從中看到另一個(gè)解釋。

在學(xué)習這兩個(gè)部分之后，你應該能了解一個(gè) DataFrame 和一個(gè) Series 的組件，也能明白如何從數據中選擇不同的子集?，F在可以閱讀「10 minutes to pandas」，以獲得更加其他有用操作的廣泛概述。和學(xué)習所有部分一樣，請新建一個(gè) notebook。

按下 shift + tab + tab 獲得幫助

我經(jīng)常在使用 Pandas 時(shí)按下 shift + tab + tab。當指針?lè )旁诿Q(chēng)中或是在有效 Python 代碼括號當中時(shí)，被指對象就會(huì )彈出一個(gè)小滾動(dòng)框顯示其文檔。這個(gè)小框對我來(lái)說(shuō)十分有用，因為記住所有的參數名稱(chēng)和它們的輸入類(lèi)型是不可能的。

按下 shift + tab + tab，開(kāi)啟 stack 方式的文檔

你也可以在「.」之后直接按下 tab 鍵，得到全部有效對象的下拉菜單

在 DataFrame(df.) 后按下 tab，獲得 200+ 有效對象列表

官方文檔的主要缺點(diǎn)

雖然官方文檔描述得非常詳盡，但它并不能很好地指導如何正確使用真實(shí)數據進(jìn)行數據分析。所有數據都是人為設計或者隨機生成的。真正的數據分析會(huì )涉及好幾個(gè)、甚至幾十個(gè) Pandas 操作串行。如果你只看文檔，你永遠不會(huì )接觸到這些。使用文檔學(xué)習 Pandas 呆板而機械，各個(gè)方法學(xué)起來(lái)相互獨立沒(méi)有聯(lián)系。

建立你的首次數據分析

在讀完上述三部分文檔之后，就可以首次接觸真實(shí)數據了。如前所述，我建議你從 Kaggle 數據集開(kāi)始。你可以通過(guò)大眾投票熱度進(jìn)行挑選，例如選擇 TMDB 5000 Movie 數據集。下載數據，然后在該數據集上新建一個(gè) Jupyter notebook。你可能目前并不能進(jìn)行高級的數據處理，但你應該能聯(lián)系你在文檔的前三部分學(xué)到的知識。

檢視內核

每一個(gè) Kaggle 數據集都有一個(gè)內核（kernel）部分。不要被「內核」這個(gè)名字迷惑了——它只是一個(gè)將 Kaggle 數據集放在 Python 或 R 語(yǔ)言處理的 Jupyter notebook。這是很好的學(xué)習機會(huì )。在你做了一些基本的數據分析之后，打開(kāi)一個(gè)比較流行的 Python kernel，通讀其中的幾個(gè)，把你感興趣的幾個(gè)代碼片段**入到自己的代碼里。

如果對某些問(wèn)題不能理解，你可以在評論區提問(wèn)。其實(shí)你可以創(chuàng )建自己的 kernel，不過(guò)現在，我覺(jué)得你還是在本地筆記本上工作比較好。

回歸官方文檔

當你完成了你的第一個(gè) kernel 之后，你可以回歸文檔然后閱讀其他部分。下面是我建議的閱讀順序：

* 處理丟失的數據

* 分組：split-apply-combine 模式

* 重塑和數據交叉表

* 數據合并和連接

* 輸入輸出工具（Text，CSV，HDF5…）

* 使用文本數據

* 可視化

* 時(shí)間序列/日期功能

* 時(shí)間差

* 分類(lèi)數據

* 計算工具

* 多重索引/高級索引

上述順序與文檔主頁(yè)左側的順序明顯不同，其中涵蓋了我認為最重要的主題。文檔中的某些部分沒(méi)有在上面列出，你可以在之后自行閱讀他們。

在閱讀上述部分的文檔并完成大約 10 個(gè) Kaggle kernel 之后，你應該可以無(wú)障礙地弄懂 Pandas 的機制，同時(shí)可以順利地進(jìn)行實(shí)際數據分析。

學(xué)習探索性數據分析

通過(guò)閱讀許多流行的 Kaggle kernel，你會(huì )在建立良好數據分析方面收獲豐富。對于更加正式和嚴格的方法，我建議你閱讀 Howard Seltman 在線(xiàn)書(shū)籍的第四章節，「Exploratory Data Analysis」。（http://www.stat.cmu.edu/~hseltman/309/Book/chapter4.pdf）

建立自己的 Kernel

你應該考慮在 Kaggle 上創(chuàng )建自己的 kernel。這是強制自己將程序寫(xiě)得清晰的好方法。通常，那些你自己寫(xiě)的代碼都亂糟糟的沒(méi)有順序，對他人（包括未來(lái)的自己）來(lái)說(shuō)都毫無(wú)可讀性。但當你在網(wǎng)上發(fā)表 Kernel 的時(shí)候，我會(huì )建議你做得好一些，就像是期待你現在或未來(lái)老板讀取那樣。你可以在開(kāi)頭寫(xiě)一個(gè)執行總結或摘要，然后用注釋解釋每個(gè)代碼塊。我通常會(huì )寫(xiě)一個(gè)探索性但混亂的程序，然后再寫(xiě)一個(gè)完全獨立可讀的程序作為最終產(chǎn)品。這是我的一位學(xué)生在 HR analytics 數據集上寫(xiě)的 kernel：https://www.kaggle.com/aselad/why-are-our-employees-leaving-prematurely

不要只是依賴(lài) Pandas，試著(zhù)掌握它

一個(gè)把 Pandas 用的過(guò)得去的人和一個(gè)掌握 Pandas 的人有很大的區別。Pandas 的常規用戶(hù)通常只能寫(xiě)比較差的代碼，因為 Pandas 有多種功能和多種方式去實(shí)現同樣的結果。編寫(xiě)簡(jiǎn)單的程序也很容易得到你的結果，但其實(shí)效率非常低。

如果你是一個(gè)使用 Python 的數據科學(xué)家，你可能已經(jīng)頻繁使用 Pandas。所以你應該把掌握 Pandas 這件事擺在重要的位置上，它能夠為你創(chuàng )造很多價(jià)值。你可以在下面的鏈接中獲得許多有趣的技巧：

https://stackoverflow.com/questions/17095101/outputting-difference-in-two-pandas-dataframes-side-by-side-highlighting-the-d/47112033#47112033

使用 Stack Overflow 檢驗你的知識

如果你不能回答 Stack Overflow 的關(guān)于一個(gè) Python 庫的大部分問(wèn)題，你就不算真正了解它。這種論斷可能有點(diǎn)絕對，但是大體說(shuō)來(lái)，Stack Overflow 為特定了解一個(gè)庫提供了很好的測試平臺。Stack Overflow 上有超過(guò) 50000 個(gè)帶有 Pandas 標簽的問(wèn)題，所以你有一個(gè)無(wú)窮無(wú)盡的數據庫能建立你對 Pandas 的知識。

如果你從沒(méi)有在 Stack Overflow 上回答過(guò)問(wèn)題，我建議你看看那些已有答案的來(lái)問(wèn)題，并且嘗試只通過(guò)文檔來(lái)回答他們。當你覺(jué)得你可以將高質(zhì)量的回答整合起來(lái)的時(shí)候，我建議你回答一些沒(méi)有被解答的問(wèn)題。在 Stack Overflow 回答問(wèn)題是鍛煉我的 Pandas 技能的最佳方式。

完成你自己的項目

Kaggle kernel 非常棒，但最終你需要處理一個(gè)獨一無(wú)二的任務(wù)。第一步是尋找數據。其中有許多數據資源，如：

data.gov，data.world，紐約公開(kāi)數據，休斯頓公開(kāi)數據，丹佛公開(kāi)數據——大多數美國大城市都開(kāi)放了數據門(mén)戶(hù)。

找到想要探索的數據集之后，繼續用相同的方式創(chuàng )建 Jupyter notebook，當你有一個(gè)很好的最終成果時(shí)，可以將它發(fā)布到 github 上。

總結

總之，作為一個(gè)初學(xué)者，我們需要使用文檔學(xué)習 Pandas 運算的主要機制，使用真實(shí)的數據集，從 Kaggle kernel 開(kāi)始學(xué)習做數據分析，最后，在 Stack Overflow 上檢驗你的知識。

亚洲精品视频一区二区,一级毛片在线观看视频,久久国产a,狠狠狠色丁香婷婷综合久久五月,天天做天天欢摸夜夜摸狠狠摸

互聯(lián)網(wǎng)整合營(yíng)銷(xiāo)

互聯(lián)網(wǎng)整合營(yíng)銷(xiāo)

sout縮寫(xiě)是什么意思，sout的全稱(chēng)及含義，sout全稱(chēng)意思大全

sout縮寫(xiě)是什么意思

SOUT英文含義

如何入門(mén)Python數據分析庫Pandas？

如何入門(mén)Python數據分析庫Pandas？

最新文章

熱門(mén)文章

版權聲明

聯(lián)系我

特別鳴謝

亚洲精品视频一区二区,一级毛片在线观看视频,久久国产a,狠狠狠色丁香婷婷综合久久五月,天天做天天欢摸夜夜摸狠狠摸

互聯(lián)網(wǎng)整合營(yíng)銷(xiāo)

互聯(lián)網(wǎng)整合營(yíng)銷(xiāo)

sout縮寫(xiě)是什么意思，sout的全稱(chēng)及含義，sout全稱(chēng)意思大全

sout縮寫(xiě)是什么意思

SOUT英文含義

如何入門(mén)Python數據分析庫Pandas？

如何入門(mén)Python數據分析庫Pandas？

最新文章

熱門(mén)文章

版權聲明

聯(lián)系我

特別鳴謝

sout縮寫(xiě)是什么意思，sout的全稱(chēng)及含義，sout全稱(chēng)意思大全

如何入門(mén)Python數據分析庫Pandas？

如何入門(mén)Python數據分析庫Pandas？