更新時間:2022-11-08 來源:黑馬程序員 瀏覽量:
當我們日常用Python做數(shù)據(jù)分析的時候,會利用Python的基礎語法來實現(xiàn)我們需要的功能。除此之外,技術人員也會通過第三方庫已經(jīng)封裝的功能,更快速、高效地處理和分析數(shù)據(jù)。Python常見的數(shù)據(jù)分析庫包括Pandas、NumPy、SciPy、Statsmodels、Gensim、scikit_learn。
Pandas(Python Data Analysis Library)是一個用于Python數(shù)據(jù)分析的庫,Pandas主要的作用是進行數(shù)據(jù)分析和預處理。和R語言中的數(shù)據(jù)框類似,Pandas可以提供用于進行結構化數(shù)據(jù)分析的二維表格型數(shù)據(jù)結構,可以處理類似于數(shù)據(jù)庫中的切片、切塊、聚合、選擇子集等比較精細化的操作,來進行數(shù)據(jù)分析。同時,Pandas還可以提供時間序列的功能,這項功能在金融行業(yè)的數(shù)據(jù)分析中是比較常見的。
Python中用于進行科學計算的基礎庫NumPy(Numeric Python),是Python用來進行數(shù)據(jù)計算的關鍵庫之一,也是許多第三方庫的依賴庫。
SciPy(Scientific Computing Tools for Python),這是一組針對解決不同場景科學和工程計算的庫,該庫在數(shù)學、函數(shù)等有關方面應用的效果更為顯著,比如我們知道的求解微分方程和積分等。
Statsmodels是以Python語言為基礎的統(tǒng)計建模和計量經(jīng)濟學庫,其中包含統(tǒng)計模型估計和統(tǒng)計測試、描述性統(tǒng)計,集成了時間序列分析模型、非參數(shù)估計、生存分析、線性回歸模型、離散數(shù)據(jù)分布模型、主成分分析以及核密度估計,兼有廣泛的統(tǒng)計測試和繪圖功能。
Gensim,業(yè)內公認的專業(yè)主題模型Python語言庫,用來提供可擴展統(tǒng)計語義、分析純文本語義結構以及檢索語義上類似的文檔。同學們可以在終端命令行中使用pip install gensim命令安裝該庫。
scikit_learn(簡稱sklearn),該庫是Python中用來進行數(shù)據(jù)挖掘和機器學習的主要庫之一。可以說它是一個以Python語言為基礎的機器學習工具庫,庫中內置了監(jiān)督式學習和非監(jiān)督式學習兩類機器學習方法,包括各種回歸、k近鄰、決策樹、葉貝斯、聚類、分類、流失學習、混合高斯模型、人工神經(jīng)網(wǎng)絡、集成方法等主流分析方法;同時支持預置數(shù)據(jù)集、數(shù)據(jù)預處理、模型選擇和評估等方法,是一個非常完整的機器學習工具庫。
以上這些庫除了Gensim外,均在Anaconda中默認安裝了,在Python數(shù)據(jù)分析中,通常還會涉及到數(shù)據(jù)讀寫與預處理、可視化和與其他程序進行交互的庫,后續(xù)筆者會一一介紹。