1949年,哈佛語言學家齊夫(George Kingsley Zipf)做了長篇小説《尤利西斯》的詞頻統計。該書的長度是260,430字,總共用到了29,899個單詞。它是單詞量最大的文學作品之一。

他發現,單詞的出現頻率有規律地下降。詞頻第二名的單詞的出現頻率,是第一名的二分之一,第三名的出現頻率是第一名的三分之一,第四名是四分之一,第十名是十分之一,第1,000名是千分之一,以此類推。
這被稱為 Zipf 定律,即任何單詞的詞頻,與該單詞在詞頻表中的排名保持一個固定比例。

這個定律有兩個重要推論。
- 一種語言的常用詞彙只包含少數單詞。例如,在英語中,單詞 the 佔所有文字的7%,最常見的10個英語單詞佔到了所有文字的23%。
對於當今世界的大多數語言來説,僅僅100到150個常用單詞,就佔所有文字的一半左右。在希臘語的《聖經新約》中,319個單詞佔全書近80%的內容。
- 當你掌握了這些高頻常用詞以後,遇到的所有詞彙幾乎都是低頻詞。
還是以希臘語的《聖經新約》為例,319個單詞佔文字的近80%,但剩下的20%包含了5118個不常用的單詞,其中大部分單詞只使用了一次。
推論二註定了精通一種外語是一件麻煩事。學習者入門以後,就不得不花大量時間,記住那些出現頻率很低的詞彙。以布朗大學語料庫為例,該語料庫一共包含了53,076個單詞,其中36,135個單詞在語料庫的所有文獻中出現次數不超過三次,它們佔了詞彙量的68%,但是僅僅在5%的場合使用。
更麻煩的是,這些不常見的詞往往很重要,能夠提供句子的關鍵資訊。越少見的詞對於瞭解句子含義越重要。
學習者遇到不認識的單詞,可以透過上下文去猜測含義。但是,一項研究表明,如果要從上下文中正確猜中單詞含義,閲讀者必須能夠理解文字中至少95%的內容。
對於布朗語料庫來説,15,851個單詞可以覆蓋語料庫97.8%的內容。這差不多就是英美大學生掌握的單詞數量。這意味着,如果你記住了15000個單詞,再遇到不認識的單詞,就可以較有把握得猜出它的含義。
但是,對於外國人來説,想要透過幾年學習,掌握15000個左右的英語單詞,絕非易事。
即使按照每天記憶30個單詞,全年無休的速度計算,從零開始記憶15000個單詞也需要500天也就是比一年半還要多的時間。事實上,在實際操作中,能達到這個速度的學習者非常罕見,以我為例,進入高中時,我的詞彙量在3000到4000,讀高中的時間裏,由於我的詞彙量對我的英語成績並不構成瓶頸,我在任何時候都沒有刻意去記單詞。高中畢業時,我的詞彙量僅6000到7000,這意味着高中三年裏,在不刻意記單詞的情況下,平均下來我每天新增的詞彙量不足三個。按照這個速度從零開始記憶15000個單詞需要花費15年時間。
評論已停用,直到您接受功能性 Cookie。