1987年,是印度傳奇數(shù)學(xué)家拉曼努揚(yáng)(SrinivasaRamanujan,1887-1920)的百年誕辰。為了紀(jì)念他,有一系列的活動(dòng)。當(dāng)代著名統(tǒng)計(jì)學(xué)者, 出生于印度的勞氏(C. Radhakrishna Rao,1920),也應(yīng)邀做了三場(chǎng)演講。之后,印度統(tǒng)計(jì)學(xué)研究所(IndianStatistical Institute)基于勞氏的演講稿,于1989年,為他出版了統(tǒng)計(jì)與真理一書。此書于1997年發(fā)行第二版。
在*9版的序文中,勞氏提到:
學(xué)生時(shí)代,我主修數(shù)學(xué)一種從給定前提下演繹結(jié)果的邏輯。后來(lái)我念統(tǒng)計(jì)學(xué)一種從經(jīng)驗(yàn)中學(xué)習(xí)的理性方法,及從給定的結(jié)果驗(yàn)證前提的邏輯。我已認(rèn)識(shí)到數(shù)學(xué)及統(tǒng)計(jì),在人類為提昇自然知識(shí),及有效管理日常事務(wù)所做的一切努力中,占有重要性。
我相信:
在最終的分析中,所有知識(shí)皆為歷史。
在抽象的意義下,所有科學(xué)皆為數(shù)學(xué)。
在理性的世界里,所有判斷皆為統(tǒng)計(jì)。
這一段話,大致說(shuō)明數(shù)學(xué)及統(tǒng)計(jì)的重要性,及其各自的內(nèi)涵。
長(zhǎng)期以來(lái),高中數(shù)學(xué)均涵蓋概率的題材,其中古典概率(即以“相同的可能性”來(lái)解釋概率)又占不小比例。因此概率常與排列組合連在一起。而排列組合是較“數(shù)學(xué)的”。雖然學(xué)生有時(shí)會(huì)被那些復(fù)雜的題目,弄得昏頭轉(zhuǎn)向。但那只是技巧性方面,在認(rèn)知方面,大抵沒(méi)太大迷惑。近年來(lái),鑒于統(tǒng)計(jì)學(xué)的重要性,高中數(shù)學(xué)里,逐漸加進(jìn)統(tǒng)計(jì)的題材。這其中95學(xué)年開始實(shí)施的“普通高級(jí)中學(xué)數(shù)課程綱要”中,新增的信賴區(qū)間與信心水準(zhǔn),卻帶給師生不小困擾。此新加入的統(tǒng)計(jì)題材,由于需取樣,得到數(shù)據(jù),使概率論里“隨機(jī)性”的特質(zhì)顯現(xiàn)出來(lái)。而隨機(jī)性與傳統(tǒng)數(shù)學(xué)中特有的“必然性”,乃完全不同的概念。雖有人認(rèn)為概率與統(tǒng)計(jì),“這類數(shù)學(xué)所需的前置準(zhǔn)備不多”,因此提前教沒(méi)問(wèn)題。但隨機(jī)性的概念,在理解層次上,其實(shí)并不是那么容易能掌握。
翻開統(tǒng)計(jì)史,信賴區(qū)間,是另一著名統(tǒng)計(jì)學(xué)者,出生于波蘭,1938年才移民至美國(guó)的奈曼(JerzyNeyman,1894-1981。他是我的師祖,即我指導(dǎo)教授的指導(dǎo)教授),于1934年演講中首度提出。他的演講結(jié)束后,大會(huì)主席包雷(Arthur Lyon Bowley, 1869-1957)于致詞中提到,“我不很確定此信心不是一信心戲法”。要知奈曼信賴區(qū)間的概念剛提出時(shí),大部分的統(tǒng)計(jì)學(xué)者,包括被視為是現(xiàn)代統(tǒng)計(jì)學(xué)之創(chuàng)始者,英國(guó)的費(fèi)雪(Sir Ronald Aylmer Fisher, 1890-1962,常以R.A.Fisher稱之)均難以接受。在所謂95%信賴區(qū)間中,那95%究竟是指什么?是概率嗎?如果是,那又是什么的概率?雖奈曼取巧地以信賴區(qū)間,來(lái)稱呼此一他創(chuàng)造出來(lái)的東西,而避用概率一詞。但包雷及其同行,當(dāng)然一眼便看穿這個(gè)手法。這段過(guò)程,可參考Salsburg(2001)Chapter12(但該書中的A.L.Bowley應(yīng)該是G.M.Bowley),及Sawilowsky(2003)一文。
歲月匆匆,七十多年過(guò)去了,今日統(tǒng)計(jì)學(xué)家,當(dāng)然已完全弄懂信賴區(qū)問(wèn)的意義。只是在大學(xué)里,不論在概率與統(tǒng)計(jì)、統(tǒng)計(jì)學(xué),及數(shù)理統(tǒng)計(jì)等教科書中,信賴區(qū)間通常屬于后半部的題材。也就是大學(xué)生在相關(guān)的課程中,開始接觸信賴區(qū)間時(shí),大致上已有相當(dāng)夠的概率統(tǒng)計(jì)基礎(chǔ)。如今此題材卻獲數(shù)學(xué)家青睞,繼95課綱加入后,98課綱(后改為99學(xué)年度起逐年實(shí)施)仍保留此題材。但由于缺乏足夠的預(yù)備知識(shí),高中生吸收不易,乃可預(yù)期。
為何此“有點(diǎn)深度”的題材,卻能堂而皇之地進(jìn)入高中數(shù)學(xué)教材?猜想主要原因是其重要性。這只要看到媒體上,??d各種調(diào)查結(jié)果的信賴區(qū)間,及信心水準(zhǔn),便可了解。
在有些統(tǒng)計(jì)教科書里,信賴區(qū)間占一章的份量。對(duì)不同的參數(shù),不同的分布,可有不同的信賴區(qū)間;即使同一參數(shù)且同一分布,也可以不同的方法,得到不同的信賴區(qū)間。有時(shí)因條件不足,或計(jì)算復(fù)雜等原因,只好退而求其次,得到近似的信賴區(qū)間。當(dāng)然這時(shí)需要一些條件,及利用一些定理。信賴區(qū)間亦可比較優(yōu)劣。要知統(tǒng)計(jì)里有各種推論方法,但因處理的是隨機(jī)現(xiàn)象,少有倚天既出,誰(shuí)與爭(zhēng)鋒的方法。而評(píng)比時(shí),也要訂出評(píng)比準(zhǔn)則。否則就像有個(gè)停止不動(dòng)的鐘,及一每日慢1分鐘的鐘,如何判定何者較準(zhǔn)?前者可是每日皆有完全準(zhǔn)確的時(shí)刻,后者卻是每1,440天(一天有1,440分),才有一完全準(zhǔn)確的時(shí)刻。不講清楚如何評(píng)比,將會(huì)各說(shuō)各話。
“常態(tài)分布,信賴區(qū)間與信心水準(zhǔn)的解讀”中說(shuō):
高中程度的統(tǒng)計(jì)推論只做隨機(jī)變數(shù)期望值的估計(jì),它的背后理論是中央極限定理。要介紹中央極限定理,就需引入常態(tài)分布。此部分僅做通識(shí)性的介紹,以活動(dòng)方式建立學(xué)生對(duì)于中央極限定理的直觀。對(duì)一固定的信心水準(zhǔn),給出信賴區(qū)間公式,再讓學(xué)生以亂數(shù)表模擬或?qū)嶒?yàn)投擲正面出現(xiàn)概率為p的銅板n次,代入信賴區(qū)間公式,以說(shuō)明信心水準(zhǔn)的意涵;并以此解讀,何以大多數(shù)學(xué)生所得的信賴區(qū)間都會(huì)涵蓋p?
這段“解讀”不但有若干問(wèn)題,也沒(méi)能說(shuō)明白。如*9句中“它的背后理論是中央極限定理”,便不知從何而生?此非統(tǒng)計(jì)學(xué)里的看法。由于課綱中的解讀晦澀不明,那些認(rèn)真教學(xué),想將學(xué)生教懂的高中數(shù)學(xué)教師,只好鉆研其中原理,各自解讀。有些還提出自認(rèn)能“厘清這些概念”的文章。只是其解讀,往往仍失之精準(zhǔn)。
為何信賴區(qū)間的概念,常會(huì)淪于類似郢書燕說(shuō)的下場(chǎng)?追根究底,還是不少學(xué)習(xí)者,未能正確了解概率的涵意。這是本文寫作的動(dòng)機(jī)。
概率的意義
一骰子有6個(gè)面,一擲之下,會(huì)得到偶數(shù)之概率為何?骰子看起來(lái)沒(méi)有異樣,就假設(shè)每個(gè)面出現(xiàn)的概率皆相同,即均為1/6。而偶數(shù)面有2,4,及6等3個(gè)。因此所求之概率為3/6。這就是所謂古典的概率,基本假設(shè)是“相同的可能性”。先求出觀測(cè)的現(xiàn)象共有幾種可能,再求出其中有幾件是我們有興趣的。將后者除以前者,即為所要的概率。雖說(shuō)是“古典”,這種概率的意義,至今仍處處可見(jiàn)。採(cǎi)用的范圍包含諸如抽籤、玩撲克牌,及玩樂(lè)透彩等。又如某項(xiàng)工作徵才,報(bào)名的有82人,錄取5人。若沒(méi)有什么特別的資訊,便只能假設(shè)每人被錄取的概率皆相同,即皆為5/82。
2009年7月底8月初,世界高爾夫球王老虎伍茲(TigerWoods),參加在美國(guó)密西根州舉行的別克公開賽(Buick Open)。第1輪打完,落后領(lǐng)先者多達(dá)8桿,排名并列95。引發(fā)他可能難逃職業(yè)生涯,首次連續(xù)2場(chǎng)比賽(前一場(chǎng)是英國(guó)公開賽(The Open Championship,在英國(guó)之外常稱為BritishOpen)),提前被淘汰的話題。不過(guò)老虎畢竟不能小覷,打完前3輪后,伍茲躍居首位。
這時(shí)大家看法丕變,一致認(rèn)為這座冠軍盃,幾乎可說(shuō)是他的囊中物了。因過(guò)去的紀(jì)錄顯示,伍茲如能帶著54洞領(lǐng)先進(jìn)入決賽圈,戰(zhàn)績(jī)是35勝1敗。你要不要猜后來(lái)他贏了沒(méi)有?運(yùn)動(dòng)比賽,往往有過(guò)去資料可參考,此時(shí)相同的可能性便不宜用了。36次中成功35次,“相對(duì)頻率”為35/36(約0.972)。這種以相對(duì)頻率來(lái)解釋概率,是常有的作法。適用能重復(fù)觀測(cè)的現(xiàn)象。會(huì)不會(huì)有爆出冷門的時(shí)候?當(dāng)然有。只是對(duì)一特定事件,用過(guò)去多次同樣情況下,該事件發(fā)生的相對(duì)頻率,來(lái)估計(jì)下一次事件發(fā)生的概率,乃是在沒(méi)有更多資訊下,常被認(rèn)為一屬于客觀的辦法。
某君看上一女孩,驚為天人,覺(jué)得這是他今生的新娘。評(píng)估后信心滿滿,自認(rèn)追上的機(jī)會(huì)有8成。旁人卻都不看好,問(wèn)他8成這一數(shù)字,是如何冒出來(lái)的?該君舉證歷歷,一個(gè)又一個(gè)的跡象,顯示那女孩對(duì)他很有好感。這個(gè)0.8的概率,就是所謂主觀概率。主觀概率當(dāng)然也可基于過(guò)認(rèn)識(shí)概率35去一些客觀的事實(shí)。只是即使面對(duì)同樣的資料,不同的人,可能有不同的判定,因而給出不同的主觀概率(看過(guò)他其實(shí)沒(méi)那么喜歡你(He’s Just Not That Into You)嗎?片中那個(gè)叫Gigi的女孩,便常誤解男生所透露的訊息)。有些現(xiàn)象就是不能重復(fù)觀測(cè)。如核能電廠的意外,及彗星撞地球等。以追女孩為例,大約少有女孩,會(huì)讓你做實(shí)驗(yàn),反覆地追,然后數(shù)一數(shù)其中成功幾次,來(lái)定下她會(huì)被你追上的概率。對(duì)這類無(wú)法重復(fù)觀測(cè)的現(xiàn)象,在談概率時(shí),主觀概率就常派上用場(chǎng)。每天早上出門,我們不是慣于抬頭看天,判斷一下今天下雨的概率有幾成?只是往往父母認(rèn)為的概率會(huì)大些,該帶傘,而小孩所認(rèn)為的下雨概率會(huì)小些。
雖說(shuō)“主觀”,但仍要合理。例如,考試有及格與不及格。若認(rèn)為會(huì)及格的概率為0.9,這沒(méi)問(wèn)題,人總要有點(diǎn)自信,但若又同時(shí)擔(dān)心有0.8的概率會(huì)不及格,那就不行了。各種可能性發(fā)生概率相加要為1。即使是主觀,可以獨(dú)排眾議,仍須自圓其說(shuō)。不能說(shuō),既然是主觀,便可以任意自定各事件之概率。因此不論是那一種對(duì)概率的解釋,都自然地,或說(shuō)必須要滿足一些共同的規(guī)則。這點(diǎn)大家應(yīng)能理解。
上述三種是常見(jiàn)對(duì)概率的解釋,大抵也就是人們?cè)u(píng)估事件發(fā)生可能性之大小的幾種思維。雖是針對(duì)不同的情況,但常能交互著運(yùn)用。大家都聽過(guò)曾參殺人的典故吧!有個(gè)與曾子同名的人殺人,好心者告訴曾母“曾參殺人”。曾母說(shuō)“吾子不殺人”,繼續(xù)織布。過(guò)一會(huì)兒,又有人來(lái)說(shuō)“曾參殺人”。曾母仍繼續(xù)織她的布,這么好的兒子怎可能殺人?但當(dāng)?shù)谌伺軄?lái)說(shuō)“曾參殺人”,曾母就害怕了,丟掉織布器具翻墻而逃。所謂“其母懼,投杼踰墻而走”。這故事出自戰(zhàn)國(guó)策秦策二。因此當(dāng)拿到一銅板,可主觀地認(rèn)為,政府發(fā)行不該會(huì)有偏差,兩面出現(xiàn)的概率,應(yīng)皆為1/2(這也可以是基于相同可能性之想法)。若投擲10次,正面出現(xiàn)8次,可能覺(jué)得有些奇怪。若繼續(xù)投擲,結(jié)果100次中,出現(xiàn)80個(gè)正面,這時(shí)相對(duì)頻率的觀點(diǎn),很可能便將顯現(xiàn)。類如曾母,調(diào)整看法,不再認(rèn)為此銅板公正。
當(dāng)然,你可以不信邪,不論投擲的結(jié)果如何,皆認(rèn)為那只是短暫的情況,意志堅(jiān)定地認(rèn)為這是一公正的銅板。這并沒(méi)有不行,就像會(huì)有母親,即使再多的人證,只要她沒(méi)親眼看到,她就不信兒子會(huì)殺人。要知隨機(jī)現(xiàn)象,事件只要概率為正,不論概率值多小,便皆可能發(fā)生。畢竟銅板正面出現(xiàn)的概率為何,只有天曉得。但引進(jìn)概率與統(tǒng)計(jì),乃為了協(xié)助我們做決策可以更精準(zhǔn)。而決策可以與時(shí)推移,并非不能更改。有如氣象局對(duì)颱風(fēng)會(huì)帶來(lái)多少雨量,須密切掌握新的動(dòng)向,而隨時(shí)修正。要有隨機(jī)的思維,如前言中勞氏所說(shuō)的,從給定的結(jié)果,驗(yàn)證前提。因此針對(duì)100次投擲,出現(xiàn)80個(gè)正面,多數(shù)人面對(duì)此結(jié)果,還是會(huì)認(rèn)為0.8的正面出現(xiàn)概率,較0.5的概率可信。稍后我們會(huì)再來(lái)看,10次中的8次,與100次中的80次,相對(duì)頻率同為0.8,但提供的資訊,是否有異?
雖然已有上述三種對(duì)概率的解釋,也涵蓋了不少實(shí)際生活中所遇到的情況,數(shù)學(xué)家當(dāng)然不會(huì)在此止步。他們喜歡抽象化,及一般化。像解方程式,會(huì)尋求公式,以表示出某類方程式的解,而非只滿足于求出一個(gè)個(gè)的特例之解。又如當(dāng)完全了解實(shí)數(shù)系統(tǒng)后,便會(huì)以公理化的方式,定義實(shí)數(shù)系統(tǒng)。即給一集合,沒(méi)說(shuō)是數(shù)字的集合,對(duì)其中的元素定義二運(yùn)算,并給出10條遵循的公理(axiom,規(guī)則)。你好奇該二運(yùn)算是否一為加法,一為乘法?而怎么沒(méi)有減法與除法?名可名,非常名,數(shù)學(xué)家不認(rèn)為你提出的是重要的問(wèn)題。但用心體會(huì)后,你終于發(fā)現(xiàn)原來(lái)二運(yùn)算,其一等同于加法,其二等同于乘法。也看出此集合中,有一元素根本就是0,而有一元素根本就是1。數(shù)學(xué)家對(duì)你的洞察力,仍不以為意,但同意你可以這樣想。
什么叫以公理化的方式,來(lái)引進(jìn)概率?先要有一個(gè)集合,稱做樣本空間,當(dāng)做某一觀測(cè)之所有可能結(jié)果的集合??梢哉娴挠羞@一觀測(cè),或只是虛擬的。樣本空間的某些子集合,是我們有興趣的,這些就是一個(gè)個(gè)的事件。所有事件也構(gòu)成一集合。最后定出一概率函數(shù),即對(duì)每一事件,給一介于0,1間的值,為該事件之概率。樣本空間、事件的集合,及概率函數(shù),三者便構(gòu)成概率空間(probability space)。這其中對(duì)樣本空間沒(méi)有太大要求,但不可以是空集合。而事件的集合,要滿足若干條件。簡(jiǎn)單講,就是你有興趣的事件不能太少。譬如說(shuō),不能只對(duì)某事件A發(fā)生有興趣,卻對(duì)A不發(fā)生沒(méi)興趣。因此事件的集合要夠大,至少該有的都得納入。這有點(diǎn)像婚宴前擬賓客名單。可以請(qǐng)很少人,如只有雙方家長(zhǎng)。而一旦多列了某人,與他同樣親近的人便也要一併請(qǐng)。所以每多列1人,將不只是增加1人而已,而會(huì)隨之增加幾位。又概率函數(shù),既然以概率之名,當(dāng)然要符合過(guò)去大家對(duì)概率的認(rèn)知,滿足一些基本的條件。
在概率空間的架構(gòu)下,不論採(cǎi)用何種方式解釋概率的人,都可各自表述,找到他所以為的概率意義。但因抽象化后,不再局限于銅板、骰子,及撲克牌等,便能討論較一般的問(wèn)題,有夠多的理論可挖掘。
與數(shù)學(xué)的其他領(lǐng)域相比,概率論的發(fā)展是較晚的。但公理化后,概率論便快速地有了深而遠(yuǎn)的發(fā)展,并成為數(shù)學(xué)中一重要的領(lǐng)域。這都要?dú)w功于二十世紀(jì)那位重要的概率學(xué)家,俄國(guó)的科莫果洛夫(Andrey Nikolaevich Kolmogorov,1903-1987),于他1933年出版,那本不到100頁(yè)的小書概率論的基礎(chǔ)(Foundationsof the Theory of Probability)中所奠定。在此書中,他說(shuō):
概率論作為數(shù)學(xué)學(xué)科,可以而且應(yīng)該從公理開始發(fā)展,就如同幾何、代數(shù)一樣(Thetheory of probability as mathematical discipline can and shouldbe developed from axioms in exactly the same way as Geometry and Algebra)。
何處是概率天地
有法國(guó)牛頓之稱的拉普拉斯(Pierre-Simon,Marquis de Laplace, 1749-1827)曾說(shuō):
這門源自考慮賭博中的機(jī)運(yùn)之科學(xué),必將成為人類知識(shí)中最重要的一部分,生活中最重要的問(wèn)題中的大部分,都將只是概率的問(wèn)題(This science, which originated in the consideration of games ofchance, should have become the most important object of human knowledge. Themost important questions of life are, for the most part, really only problemsof probability)。
概率是針對(duì)隨機(jī)現(xiàn)象。但世上并非每件事都是隨機(jī)的,我們說(shuō)過(guò)還有必然性。假設(shè)投擲一兩面皆是人頭的銅板,并觀察會(huì)得到那一面。你曉得這是一必然現(xiàn)象,但仍可說(shuō)會(huì)出現(xiàn)人頭的概率為1,而其他情況出現(xiàn)的概率為0。也就是視此為一“退化的”隨機(jī)現(xiàn)象。
某些物理學(xué)家,說(shuō)不定認(rèn)為對(duì)投擲銅板,由給定投擲的速度、角度、地面的彈性、銅板的形狀及重量等條件,可算出銅板落地后,會(huì)那一面朝上,因此這不是隨機(jī)。至于樂(lè)透彩的開獎(jiǎng),只要起始條件都能測(cè)出,則會(huì)開出那一號(hào)球,也能算出,因此這也不是隨機(jī)。但你大約也知道所謂蝴蝶效應(yīng)(butter?y effect)。量測(cè)極可能有誤差,而有時(shí)一些微小的改變,影響卻可能很大。因此我們寧可相信這些都是隨機(jī)現(xiàn)象。
某些神學(xué)家,可能認(rèn)為一切其實(shí)都是按照神的旨意在進(jìn)行,只是我們不知而已。說(shuō)不定真是如此。你看過(guò)杰遜王子戰(zhàn)群妖(Jason and the Argonauts)嗎?這是一部基于希臘神話的電影,內(nèi)容與十二星座中的牡羊座有關(guān),1963出品。我雖是幼時(shí)看的,至今仍印象深刻。片中杰遜王子遭遇的各種突如其來(lái)的災(zāi)難,以及一次又一次英勇的逢兇化吉,不過(guò)是天后赫拉(Hera),與天神宙斯(Zeus)在較勁,分別作梗及協(xié)助。但若無(wú)從了解神的旨意,對(duì)于未來(lái),也只好視為隨機(jī)
隨著科技進(jìn)步,人們逐漸弄明白很多現(xiàn)象的來(lái)龍去脈。例如,我們知道女性一旦懷孕,嬰兒性別便已確定。但對(duì)一大腹便便的婦女,好事者由于不知,仍可猜測(cè)其生男生女之概率。考試前夕,學(xué)生們雖認(rèn)真準(zhǔn)備,但還是絞盡腦汁猜題,各有其認(rèn)為考出概率很大的題目。老師獲知后,覺(jué)得好笑。課堂中已一再暗示明示,那些題會(huì)考,幾乎都該能確定了,何需再猜?實(shí)則試題早已印妥,而學(xué)生不知考題,且未體會(huì)老師的暗示及明示,所以仍可以大猜一通。另外,諸如門外有人敲門,你好奇是男是女?老師要你猜拿在背后的水果,是橘子或蘋果?同學(xué)蓋住落地的銅板,要你猜正面或反面朝上?這類明明已確定的事,本身其實(shí)并不隨機(jī),只是對(duì)你而言,卻有如惠子在秋水篇所說(shuō)的“子非魚”,當(dāng)然可猜魚快樂(lè)的概率。
但對(duì)已命好題目的老師,去判斷那一題會(huì)考出的概率,就沒(méi)什么意義了。因?qū)λ?,每一題會(huì)考出的概率,只有1或0,不會(huì)是其他值。同樣地,對(duì)看到背后水果的人,水果會(huì)是橘子或蘋果的概率,將只能說(shuō)1或0。隨機(jī)與隨意不同。我們說(shuō)過(guò)了,概率中那套邏輯,是有夠大的彈性,讓人能揮灑,只是仍要合理,否則就是抬槓了。若你明明知道那是蘋果,硬要說(shuō)它是橘子的概率為0.5;或明明已從醫(yī)生處掌握一切訊息的待產(chǎn)媽媽,還說(shuō)生下來(lái),是男是女的概率皆為0.5,那就不是在談概率了。
解釋概率
在第2節(jié)我們以概率空間的方式引進(jìn)概率。由于樣本空間可以是虛擬的,此時(shí)事件也就是虛擬的。但假設(shè)真的有一項(xiàng)觀測(cè),如投擲一個(gè)4面體,4面分別標(biāo)示點(diǎn)數(shù)1,2,3,4,并觀測(cè)所得點(diǎn)數(shù)。則樣本空間為1,2,3,4之集合。事件的集合可以取那一個(gè)*5的,也就是包含樣本空間之所有子集所構(gòu)成的集合。你如果學(xué)過(guò)排列組合,便知此*5的事件集合中,共有16(2的4次方)個(gè)元素。至于概率函數(shù),假設(shè)點(diǎn)數(shù)1,2,3,4出現(xiàn)的概率,分別為0.1、0.2、0.3,及0.4,相加為1。至于任一事件的概率,就看該事件包含1,2,3,4中那幾個(gè)數(shù),再把對(duì)應(yīng)的概率相加便是。如一事件中恰包含2,4,則該事件的概率為0.2+0.4=0.6。馀此類推。這就建立了一概率空間。對(duì)同一樣本空間,可定義出很多不同的概率空間。
就算你已接受了概率空間的概念,反正數(shù)學(xué)家就是常給一些自得其樂(lè)的定義,仍可能會(huì)好奇,所謂點(diǎn)數(shù)1出現(xiàn)的概率0.1,究竟是什么意思?是每投10次,點(diǎn)數(shù)1恰出現(xiàn)1次嗎?非也!有個(gè)修過(guò)概率論的數(shù)學(xué)系畢業(yè)生,好心地對(duì)你解釋如下:
假設(shè)投擲n次,點(diǎn)數(shù)1出現(xiàn)a次,則相對(duì)頻率a/n與0.1之差的絕對(duì)值,會(huì)大于一給定的正數(shù)(不管它多小)之概率,將隨著n的趨近至無(wú)限大,而趨近至0。
務(wù)實(shí)的你,很可能不覺(jué)得這樣的解釋很實(shí)際。先提出疑問(wèn)“什么是趨近至無(wú)限大?”就是一直投擲,不可停止,日出日落,春去秋來(lái),繼續(xù)投擲,即使夸父追日成功了,無(wú)限大也仍未達(dá)到,還得投擲。那位數(shù)學(xué)系畢業(yè)生,一聽到你問(wèn)起無(wú)限大,如魚得水,這是他在數(shù)學(xué)系四年寒窗,學(xué)到的幾招獨(dú)門絕活之一。你不得不停止無(wú)限大這個(gè)話題,因連夸父追日,你也覺(jué)得豈有成功時(shí)?如何能接受解釋概率,還得涉及無(wú)限大?但還一點(diǎn)你不吐不快的是“我就是不了解概率值的意義,怎么卻用概率的概念來(lái)解釋給我聽?”
想解釋概率值的意義,將會(huì)在概率及無(wú)限大,一層又一層的打轉(zhuǎn)。這有如想去定義什么叫做點(diǎn),結(jié)果將如同陷在線團(tuán)中,學(xué)步維艱。最后只好說(shuō),點(diǎn)是無(wú)定義名詞。但無(wú)論如何,你應(yīng)可理解,對(duì)前述4面體,僅投擲1次,是無(wú)法顯示點(diǎn)數(shù)1出現(xiàn)概率0.1,那個(gè)0.1的意思。概率并非只看“少數(shù)幾次”的結(jié)果。概率是在大樣本(n很大)下,威力才顯現(xiàn)。概率值的意義,既然不能以一套可接受的邏輯來(lái)說(shuō)明。那么退而求其次,可否讓人略微了解概率值的意思?或者說(shuō)(除非是虛擬,只是在求一些概率值),你拿一4面體,且宣稱點(diǎn)數(shù)1出現(xiàn)的概率為0.1,怎么樣才知道你講的是真的,而非信口開河,或者說(shuō)記錯(cuò)。
之前那位數(shù)學(xué)系畢業(yè)生的解釋,這時(shí)便能派上用場(chǎng)。此即大數(shù)法則(law of large numbers)之一簡(jiǎn)單的版本。數(shù)學(xué)上的意思為,事件出現(xiàn)的相對(duì)頻率,會(huì)“概率收斂“至事件發(fā)生的概率。要知隨機(jī)世界中,仍有些法則要遵循,大數(shù)法則是其中很重要的一個(gè)。當(dāng)然我們已指出了,實(shí)際上并無(wú)法觀測(cè)事件無(wú)限多次。那是否可說(shuō),事件出現(xiàn)的相對(duì)頻率,當(dāng)觀測(cè)數(shù)夠大,須接近事件發(fā)生的概率?也非如此。事件只要概率為正,便都可能發(fā)生。所以,不論觀測(cè)數(shù)再大,都不能排除很偏頗(如觀測(cè)1,000,000次,點(diǎn)數(shù)1出現(xiàn)的次數(shù)為0,或1,000,000次)的事件發(fā)生。但是,這時(shí)統(tǒng)計(jì)學(xué)家跳出來(lái)了,可以做一檢定,檢定點(diǎn)數(shù)1出現(xiàn)的概率是否真為0.1,這是屬于統(tǒng)計(jì)學(xué)里假設(shè)檢定(testing hypothesis)的范疇。簡(jiǎn)單講,是以在某一假設(shè)下,會(huì)觀測(cè)到這樣的結(jié)果,是否算不尋常?所謂不尋常,是指發(fā)生的概率很小,小于某一預(yù)設(shè)的值。若屬于不尋常,則當(dāng)初的假設(shè)就不宜接受。附帶一提,當(dāng)假設(shè)一銅板為公正,則投擲100次,出現(xiàn)至少80次正面,較投擲10次,出現(xiàn)至少8次正面,前者是更不尋常的,因它發(fā)生的概率,遠(yuǎn)比后者小。所以,在同樣獲得八成以上的正面數(shù)下,投擲數(shù)愈大,將會(huì)使我們更相信此銅板非公正,而接受它出現(xiàn)正面的概率,至少是0.8。這說(shuō)明在統(tǒng)計(jì)里,樣本數(shù)愈大,將使我們的推論愈精準(zhǔn)。
在隨機(jī)世界,究竟何者為真,常屬未知。我們往往無(wú)法“證明”那件事是真實(shí)的。不過(guò)是一個(gè)個(gè)的假設(shè),端看你接受那一假設(shè)。4面體點(diǎn)數(shù)1出現(xiàn)的概率,是否真為0.1,即使投擲再多次,都無(wú)法證明其真?zhèn)巍V荒苷f(shuō)數(shù)據(jù)顯示“可以接受”,或“無(wú)法接受”概率為0.1。這里面有一套機(jī)制,以決定接受或不接受。
另外,對(duì)一4面體,也可估計(jì)點(diǎn)數(shù)1出現(xiàn)的概率,有一些不同的估計(jì)法,可以得到不同的估計(jì)量。在數(shù)學(xué)中,使用不同的方法,須導(dǎo)致相同的結(jié)果。所謂殊途同歸。但統(tǒng)計(jì)里,除非做些限制,否則常無(wú)定于一尊的方法。對(duì)不可測(cè)的未來(lái),我們常要做估計(jì),統(tǒng)計(jì)在這方面,能扮演很好的角色。諸如銅板出現(xiàn)正面的概率,及病人的存活率等,皆能估計(jì)。但有時(shí)覺(jué)得以一個(gè)值估計(jì),雖然明確,但估計(jì)值很難恰好等于真實(shí)值,一翻兩瞪眼,常估計(jì)不準(zhǔn)。下節(jié)信賴區(qū)間的概念,因而產(chǎn)生。
信賴區(qū)間
我們常對(duì)某一未知的量做估計(jì)。未知的量可以是某事件發(fā)生的概率,某分布的參數(shù)(如期望值及變異數(shù)等),或某物件之壽命等。這些未知的量,可通稱為參數(shù)。有時(shí)會(huì)以一區(qū)間來(lái)估計(jì)參數(shù),并給出此區(qū)間會(huì)涵蓋該參數(shù)之概率。這就是所謂區(qū)間估計(jì),所得的區(qū)間,稱為信賴區(qū)間。而區(qū)間涵蓋參數(shù)之概率,則稱為此區(qū)間之信心水準(zhǔn)(con?dencelevel)。與概率一樣,信心水準(zhǔn)是一介于0,1間的值,常事先給定,且以百分比表示。90%、95%,及99%等,都是常取的值。
數(shù)據(jù)(data)是統(tǒng)計(jì)學(xué)家做決策之主要依據(jù)。若缺乏數(shù)據(jù),他們往往將一籌莫展。來(lái)看一簡(jiǎn)單且常見(jiàn)的情況。假設(shè)欲估計(jì)一銅板出現(xiàn)正面之概率p。很自然地,便投擲若干次,譬如說(shuō)n次,并觀測(cè)n次的結(jié)果。這個(gè)過(guò)程便稱為取樣。在本情況中,各次投擲的結(jié)果并不重要。總共得的正面數(shù),以a表之。知道a,就已掌握全部資訊(a稱為充分統(tǒng)計(jì)量(su?cient statistic))。給定信心水準(zhǔn),并利用n及a,可得一信賴區(qū)間,但作法并不*10。亦即對(duì)于p,有不同的信賴區(qū)間公式。但課綱的寫法,好像信賴區(qū)間的公式*10。此處由于其中涉及二項(xiàng)分布,計(jì)算復(fù)雜些,如果n夠大(n太小則不行),我們??山逯B(tài)分布來(lái)近似。這要用到概率論里另一重要的法則—中央極限定理(Central limit theorem)。必須一提,只有以常態(tài)分布來(lái)近似時(shí),才需用到中央極限定理,并非求信賴區(qū)間皆要用到此定理。
對(duì)估計(jì)銅板出現(xiàn)正面之概率p,取樣前,信賴區(qū)間為一隨機(jī)區(qū)間,若信心水準(zhǔn)設(shè)定為95%,則有(或精準(zhǔn)地說(shuō)“約有”,如果該信賴區(qū)間只是近似的)0.95的概率,信賴區(qū)間會(huì)包含p。取樣后,得到一固定區(qū)間。則p會(huì)屬于該區(qū)間的概率,將不是1便是0,而不再是p了。為何如此?很多人對(duì)此常感困惑。
我們先以下例來(lái)說(shuō)明。假設(shè)某百貨公司周年慶,顧客購(gòu)物達(dá)一定金額,便能自1至10號(hào)中抽1彩球。若抽中5號(hào),今天在該公司的花費(fèi),可獲30%抵用券。在抽球之前,你知道有0.1的概率能獲抵用券,機(jī)會(huì)不算小。一旦抽出,一看是3號(hào),獲抵用券的概率當(dāng)然便是0了。
這類例子很多。打擊手揮棒前,可以說(shuō)打出安打之概率為0.341,打完不是安打就非安打,0.341已派不上用場(chǎng)了。再給一例。假設(shè)某銀行發(fā)行的樂(lè)透彩,每期自1至42號(hào)中,開出6碼為頭獎(jiǎng)號(hào)碼。你簽了一注6碼,開獎(jiǎng)前,你知道很容易“至少中1碼”,因概率約為0.629(見(jiàn)附注1)。等開獎(jiǎng)后,你的彩券會(huì)至少中1碼之概率,將是1(若至少中1碼),或是0(若1碼皆未中)。
再看如課綱中所說(shuō),也可以亂數(shù)表模擬出現(xiàn)正面(課綱中少了“正面”二字,意思便不通)概率為p的銅板n次,以求得信賴區(qū)間。你看,p根本是事先設(shè)定,模擬所得之一固定區(qū)間,p有沒(méi)有落在其間,一看便知,如何能說(shuō)該區(qū)間涵蓋p之概率為0.95?就算你不是模擬,而是實(shí)際拿一銅板投擲,則p只是未知,卻為某一定值(說(shuō)不定發(fā)行銅板的單位知道),投擲后所得之固定信賴區(qū)間,已無(wú)隨機(jī)性了,它只會(huì)涵蓋p,或不會(huì)涵蓋p??梢赃@樣想,對(duì)同一銅板,每人所得之95%信賴區(qū)間有異,如何能個(gè)個(gè)皆宣稱,其區(qū)間涵蓋p之概率為0.95?
那95%有何用?0.95是一概率值,而概率值從來(lái)就不是只看一次的實(shí)驗(yàn)結(jié)果。大約可以這么說(shuō),如果反覆實(shí)驗(yàn),而得到很多信賴區(qū)間,則其中會(huì)包含p的信賴區(qū)間數(shù),約占全部區(qū)間數(shù)的95%。所以,0.95的意義,乃如同上一節(jié)我們對(duì)概率的解釋。但要留意的是,對(duì)同一個(gè)p,如果全班40人,所得到的40個(gè)95%信賴區(qū)間,其中包含p的個(gè)數(shù)未超過(guò)85%(即未超過(guò)34個(gè)),也不要太驚訝。此概率約為0.01388(附注2),是不太大,但只要班級(jí)數(shù)夠多,便不難發(fā)生。98課綱說(shuō)“大多數(shù)學(xué)生所得的信賴區(qū)間都會(huì)涵蓋p”,實(shí)在缺乏隨機(jī)的概念。
情境解讀
概率既然與我們的生活習(xí)習(xí)相關(guān),因此若能善用概率,將有助于在隨機(jī)世界中,更精準(zhǔn)的做決策。只是卻往往概率應(yīng)用不易,得到的概率值,常被認(rèn)為是錯(cuò)的。而且還眾說(shuō)紛紜,各提出不同的概率值。個(gè)中原因何在?一主要原因,即情境解讀有誤。
過(guò)去大家在數(shù)學(xué)課程中,會(huì)遇到所謂應(yīng)用題。題目看懂,寫出數(shù)學(xué)式子后,就是解數(shù)學(xué)了。這時(shí)便可拋開原先那段冗長(zhǎng)的敘述。但在概率里,有些看似簡(jiǎn)單的情境,因解讀不同,會(huì)導(dǎo)致南轅北轍的結(jié)論。底下給幾個(gè)例子來(lái)看。
在電影決勝21點(diǎn)(英文片名就是21)中,那位數(shù)學(xué)教授于課堂上提出一個(gè)問(wèn)題。有3扇門,其中1扇門后有汽車,另兩扇門后為山羊。你選擇第1扇門后,主持人打開第2扇門,見(jiàn)到山羊。問(wèn)你這時(shí)該不該換選第3扇門?有位學(xué)生答:
Yes, because my chance of getting the carwill increase from 33.33% to66.67% by switching from door 1 to door 3.
教授則說(shuō)“Very good!”,認(rèn)同其看法,也就是該換。有些人對(duì)此提出質(zhì)疑。
比較正確的講法應(yīng)該是,若主持人事先知道汽車在那扇門后,則他會(huì)打開1扇門后是山羊的門(這是較合理的作法,否則游戲便無(wú)法進(jìn)行了),這時(shí)若換選第3扇門,則如電影中那位學(xué)生所述,得到汽車的概率,將由1/3增加為2/3。但若主持人事先不知汽車在那1扇門后(這當(dāng)然是少見(jiàn)的情況),只是隨機(jī)地自第2及第3扇門中,挑一扇打開,且剛好門后是山羊,則便不用換,因換或不換,得到汽車之概率,皆為1/2。
但是讀者不知是否注意到,在主持人事先知道汽車在那一扇門后的情況中,我們其實(shí)還隱含做一假設(shè)。即若第2及第3扇門后皆是山羊,則主持人乃隨機(jī)地(即各以1/2的概率)打開第2或第3扇門。事實(shí)上,可以有更一般的假設(shè)。當(dāng)?shù)?及第3扇門后皆是山羊,假設(shè)主持人分別以q及1/q的概率,打開第2或第3扇門,其中0≤q≤1。則換選第3扇門,得到汽車的概率成為1/(1+q)(見(jiàn)附注2)。原來(lái)此概率會(huì)受主持人是如何打開第2扇門的影響!很多人可能未想到這點(diǎn)。由于1/(1+q)≥1/2,所以換,仍是較好的選擇。
再看一例。有一對(duì)夫妻剛搬進(jìn)某社區(qū),大家只知他們有兩個(gè)小孩,并不知性別。某日社區(qū)一管理員,見(jiàn)到此家之媽媽,帶著家中一小孩在玩耍。若該小孩是女孩,求此家兩小孩皆為女孩之概率。很多人以為此問(wèn)題不難,認(rèn)為所求概率就是1/3。其實(shí)此問(wèn)題比我們想像的復(fù)雜很多。關(guān)鍵在如何將“見(jiàn)到此家之媽媽,帶著家中一女孩“,轉(zhuǎn)化為適當(dāng)概率空間中的事件。也就是要講清楚,究竟如何帶小孩出門?要注意的是,前述事件并不等同于“此家至少有一女孩”!
最后看另一常出現(xiàn)于概率論教科書中的例子。平面上有一單位圓,隨機(jī)地畫一條弦,求弦長(zhǎng)大于此圓的內(nèi)接等邊三角形之邊長(zhǎng)的概率。利用幾何,單位圓的內(nèi)接等邊三角形之邊長(zhǎng)可求出。但如何是隨機(jī)地畫一條弦呢?要知由1至n的n個(gè)正整數(shù)中,隨機(jī)地取1數(shù),其意義較清楚,就是每一數(shù)被取中的概率皆為1/n。自區(qū)間[0,1]中隨機(jī)地取1數(shù),其意義也還明白,就是此數(shù)會(huì)落在[0,1]之任一子區(qū)間的概率,為該子區(qū)間之長(zhǎng)度。但隨機(jī)的畫弦,是如何畫法?此處對(duì)于“隨機(jī)”一詞,可以有好多種解釋。解釋不同,畫弦的方式將不同,因而求出的概率也就不同。
上面這幾個(gè)例子告訴我們,在處理概率問(wèn)題時(shí),情境要定義清楚。用術(shù)語(yǔ)來(lái)說(shuō),就是概率空間要明確給出,否則將導(dǎo)致各說(shuō)各話。有時(shí)雖未給出概率空間,但情境較簡(jiǎn)單,大家有共同看法,這時(shí)未特別強(qiáng)調(diào)概率空間為何,還沒(méi)問(wèn)題。如“投擲一公正的骰子,求點(diǎn)數(shù)大于4之概率”。雖只是簡(jiǎn)單的描述,但不至于有疑義。當(dāng)對(duì)情境有疑義時(shí),就要如莊子在秋水篇講的,“請(qǐng)循其本”,把概率空間調(diào)出來(lái)。此有如政治上或社會(huì)上,遇到有重大爭(zhēng)議時(shí),就要祭出憲法,看有沒(méi)違憲,并由大法官解釋。對(duì)一給定的情境,要很謹(jǐn)慎的面對(duì)。否則即使是概率統(tǒng)計(jì)專業(yè)人士,也可能解讀錯(cuò)誤。
情境解讀之外,概率中一些獨(dú)特的概念,像是條件概率,獨(dú)立性,及隨機(jī)取樣等,也是應(yīng)用概率時(shí),得謹(jǐn)慎留意的。