首頁所有文章觀點與動態基礎知識系列教程實踐項目工具與框架工具資源Python組伯樂在線>;Python-伯樂在線>所有文章>實際項目>如何在Python中實現這五種強大的概率分布?
2015/04/25概率分布練習項目
分享到:12
本文由伯樂在線-feigao.me翻譯,Daetalus校對。未經允許禁止轉載!
英語產地:www.bigdataexaminer.com。歡迎加入翻譯小組。
r編程語言已經成為統計分析中事實上的標準。但是在本文中,我將告訴您用Python實現統計概念是多麽容易。我想用Python實現壹些離散和連續的概率分布。雖然我不會討論這些分布的數學細節,但是我會通過鏈接給妳壹些學習這些統計概念的好材料。在討論這些概率分布之前,我想簡單講壹下什麽是隨機變量。隨機變量是實驗結果的量化。
例如,表示擲硬幣結果的隨機變量可以用Python來表示。
X = {1如果正面朝上,
如果反面朝上}
12X = {1如果正面朝上,
如果反面朝上}
隨機變量是采用壹組可能值(離散或連續)並服從某種隨機性的變量。隨機變量的每壹個可能值都與壹個概率相關聯。隨機變量的所有可能值和與之相關的概率稱為概率分布。
我鼓勵您仔細研究scipy.stats模塊。
概率分布有兩種類型:離散概率分布和連續概率分布。
離散概率分布也叫概率質量函數。離散概率分布的例子有伯努利分布、二項式分布、泊松分布和幾何分布。
連續概率分布,也稱為概率密度函數,是具有連續值的函數(如實線上的函數)。正態分布、指數分布、貝塔分布都屬於連續概率分布。
如果想了解更多關於離散和連續隨機變量的知識,可以看可汗學院關於概率分布的視頻。
二項分布
服從二項式分布的隨機變量x代表n次獨立的是/否試驗中成功試驗的次數,其中每次試驗的成功概率為p。
E(X) = np,Var(X) = np(1?p)
如果想了解各個函數的原理,可以使用IPython筆記本中的幫助文件命令。E(X)代表分布的期望值或平均值。
鍵入stats.binom?了解更多關於binom的信息。
二項分布的壹個例子:壹個硬幣拋10次,正好正面朝上兩次的概率是多少?
假設在這個實驗中正面朝上的概率是0.3,這意味著平均來說,我們可以預期硬幣正面朝上三次。我把拋硬幣的所有可能結果定義為k = np.arange(0,11):妳可能觀察到0正面朝上,1正面朝上,10正面朝上。我用stats.binom.pmf計算每個觀測值的概率質量函數。它返回壹個包含11個元素的列表,這些元素表示與每個觀察相關聯的概率值。
您可以使用。rvs函數模擬壹個二項式隨機變量,其中參數size指定了您想要模擬它的次數。我讓Python返回10000個參數為n和p的二項隨機變量,我會輸出這些隨機變量的平均值和標準差,然後畫出所有隨機變量的直方圖。
泊松分布
服從泊松分布的隨機變量X,用速率參數)λ表示壹個事件在固定時間間隔內發生的次數。參數λ告訴您事件發生的速率。隨機變量x的均值和方差為λ。
E(X) = λ,Var(X) = λ
泊松分布的例子:給定某個路口的事故率為壹天2次,請問這裏壹天發生4次事故的概率是多少?
讓我們考慮壹下這個平均每天發生兩起事故的例子。泊松分布的實現有點類似於二項分布,在二項分布中我們需要指定比率參數。泊松分布的輸出是壹系列數字,包括0次,1次,2次直到10次的概率。我用結果生成了下面的圖片。
如妳所見,事故數量的峰值接近平均值。平均而言,您可以預期事件的數量為λ。嘗試λ和n的不同值,看看分布的形狀如何變化。
現在我將模擬1000個服從泊松分布的隨機變量。
正態分布
正態分布是壹個連續分布,它的函數可以取在實線上的任何地方。正態分布由兩個參數描述:分布的均值μ和方差σ2。
E(X) = μ,Var(X) = σ2
正態分布的值可以從負無窮大到正無窮大。妳可以註意到,我用stats.norm.pdf得到正態分布的概率密度函數。
貝塔分布(貝塔分布)
β分布是壹種連續分布,其值在[0,1]之間,由兩個形態參數α和β的值來表征。
β分布的形狀取決於α和β的值。β分布廣泛應用於貝葉斯分析中。
當您將參數α和β設置為1時,該分布也稱為均勻分布。嘗試不同的α和β值,看看分布的形狀如何變化。
指數分布
指數分布是壹種連續的概率分布,用來表示獨立隨機事件的時間間隔。比如乘客進入機場的時間間隔,呼叫客服中心的時間間隔,中文維基百科新條目出現的時間間隔。
我將參數λ設置為0.5,將x的取值範圍設置為$[0,15]$。
然後,我模擬了1000個指數分布下的隨機變量。比例參數代表λ的倒數。在函數np.std中,參數ddof等於標準偏差除以$n-1$。
結論(結論)
概率分布就像蓋房子的藍圖,隨機變量是實驗事件的總結。建議妳去聽哈佛大學數據科學課程的講座。Joe Blitzstein教授給出了壹個總結,其中包含了所有妳需要知道的關於統計模型和分布的知識。