英語中每個詞之間都有空格,但中文沒有空格將詞隔開,屬于不同詞的漢字相鄰呈現(如圖1所示)。絕大部分的英文閱讀模型認為利用空格將詞分開在閱讀中起到了至關重要的作用。這引發了一些重要的問題:為什么英語使用空格,而中文不使用?哪種方式更好?中文是否有必要在詞之間加入空格,或者英語是否應該學習中文而取消空格?中國科學院心理研究所李興珊研究組針對上述問題開展了一項研究。
圖1不同書寫系統標記詞邊界的方式
該研究提出了一個假設,認為書寫系統對詞邊界標記方式的選擇不是隨意的,而是為了達到高效閱讀,在權衡詞切分需要付出的認知努力和閱讀時的視覺加工效率后,選擇了更經濟的方式。為檢驗該假設,研究團隊基于大規模語料庫,運用信息論方法量化了27種語言中空格為確定詞邊界提供的信息量。結果表明,不同書寫系統對詞邊界標記方式的選擇與空格提供的詞邊界信息量有關:在采用空格的書寫系統如英語中,空格提供的信息量更大(2.90比特);而在不采用空格的書寫系統如中文中,插入的空格提供的信息量更小(1.10比特,如圖2所示)。空格提供的信息量反映了閱讀無空格文本時付出的認知努力。對于空格信息量較大的字母書寫系統如英語,文本去掉空格后,讀者需要付出更多認知努力進行詞切分,容易出現詞切分錯誤;但對于中文,如果在文本中插入空格,空格提供的信息量較小,讀者不需要付出太多認知努力進行詞切分。因此,英語傾向于使用空格以減少詞切分的認知負擔,而中文則選擇不使用空格。兩者都選擇了更經濟的詞邊界標記方式。

圖2二十七種語言中詞間空格為確定詞邊界提供的信息量
空格信息量差異的根本原因是不同書寫系統的詞長分布不同。中文是表意文字系統,每個漢字代表一個音節或語素,因此每個漢字提供的信息量超過其他書寫系統中的字母。中文漢字提供的平均信息量為9.84比特,而英語字母提供的平均信息量為4.32比特。基于該特點,大多數中文詞可以用一到兩個漢字表示(平均詞長為1.40個漢字,標準差為0.57),而英語單詞往往由多個字母組成(平均詞長為3.78個字母,標準差為2.04)。因此,中文詞邊界位置的不確定性較小,即使插入詞間空格,其為確定詞邊界提供的額外信息有限;而英語詞邊界位置不確定性較大,詞間空格可以為確定詞邊界提供更多的信息量。
需要注意的是,中文若加入空格雖然提供的信息量較少,但仍提供了1.10比特的信息量。那中文為什么不用空格呢?這可能是在權衡了詞切分付出的認知努力和視覺加工效率兩個方面因素后,中文選擇了更經濟的詞邊界標記方式。在閱讀時,一個注視點的視覺感知范圍有限,空格的插入會導致讀者在一個注視點上感知的字符變少,從而降低視覺感知效率。對中文而言,插入空格為詞切分帶來的效益不足以抵消它在視覺感知方面導致的代價,因此中文不采用空格是更經濟的。相對地,英語等字母書寫系統中空格提供的信息量較大,空格為詞切分帶來的效益遠大于它在視覺感知方面導致的代價。由此可見,雖然有的書寫系統采用空格標記詞邊界,而另外一些書寫系統不明確標記詞邊界,但都是為了實現閱讀的經濟性而做出的選擇。
與該研究的假設一致,以往研究表明,改變詞邊界的標記方式對不同語言讀者的閱讀效率產生了不同影響。這些研究發現,在空格信息量較大的書寫系統(如英語)中去掉空格,閱讀速率大幅下降約50%;而在空格信息量較小的書寫系統(如中文),即使插入空格,閱讀速率也不會顯著提升(如圖3所示)。
圖3有詞間空格與無詞間空格的閱讀速率
從字母書寫系統的演化歷史來看,人們逐漸改革書寫系統,以實現最經濟的詞邊界標記。歷史上,字母書寫系統并非始終使用空格標記詞邊界。由于轉錄的口語中沒有詞邊界信息且書寫材料昂貴,早期書寫文本中沒有空格。讀者為了理解文本意義不得不出聲閱讀,導致閱讀效率較低。這一時期的書寫系統僅由少數抄寫員或傳教士使用。直到文藝復興時期,隨著大眾閱讀需求增加,這些書寫系統才逐漸加入詞間空格,提高了識字率和閱讀效率。由此可見,字母語言中加入詞間空格這一書寫系統的變革逐漸適應了人類的認知需求,更符合經濟性原則。
這一發現不僅有助于人們更好地理解跨語言普遍性與特異性的閱讀認知機制,還可以為不同語言文本的排版和設計提供科學依據。
文章已在線發表于Annals of the New York Academy of Sciences。心理所助理研究員黃林潔瓊為第一作者,心理所李興珊研究員為通訊作者。該研究得到了國家自然科學基金面上項目(32371156)、中國博士后科學基金(2022M723362)、中國科學院心理研究所項目(E2CX6625CX)的支持。
論文信息:
Huang, L., Reichle, E. D., & Li, X. (2024/07/02).?Comparative Analyses of the Information Content of Letters, Characters, and Inter-Word Spaces Across Writing Systems.?Annals of the New York Academy of Sciences.?https://doi.org/10.1111/nyas.15178
相關論文:
Li, X., Huang, L., Yao, P., & Hy?n?, J. (2022). Universal and specific reading mechanisms across different writing systems.?Nature Reviews Psychology,?1(3), 133-144.? https://doi.org/10.1038/s44159-022-00022-6
英語中每個詞之間都有空格,但中文沒有空格將詞隔開,屬于不同詞的漢字相鄰呈現(如圖1所示)。絕大部分的英文閱讀模型認為利用空格將詞分開在閱讀中起到了至關重要的作用。這引發了一些重要的問題:為什么英語使用......
英語中每個詞之間都有空格,但中文沒有空格將詞隔開,屬于不同詞的漢字相鄰呈現(如圖1所示)。絕大部分的英文閱讀模型認為利用空格將詞分開在閱讀中起到了至關重要的作用。這引發了一些重要的問題:為什么英語使用......
英語中每個詞之間都有空格,但中文沒有空格將詞隔開,屬于不同詞的漢字相鄰呈現(如圖1所示)。絕大部分的英文閱讀模型認為利用空格將詞分開在閱讀中起到了至關重要的作用。這引發了一些重要的問題:為什么英語使用......
日常交流中,人們經常會預測對方即將說出的內容。例如,你的朋友跟你說“我剛從青島回來,在海邊撿了很多……”,可能還沒說完,你就已經根據“青島”“海邊”等概念預測到即將說出的是“貝殼”。這種語義信息的預先......
6月9日,訊飛星火認知大模型V1.5正式發布。僅僅時隔一月,訊飛星火認知大模型不僅各項能力持續提升,且在綜合能力上實現三大升級:開放式知識問答取得突破,多輪對話、邏輯和數學能力再升級。星火App同步發......
老年人在認知下降的過程中,常伴隨情緒問題的困擾。焦慮和抑郁情緒廣泛存在于老年人中。有焦慮和抑郁情緒的老年人的認知衰退更嚴重,癡呆風險更高。焦慮和抑郁情緒對記憶有負面影響。動物研究顯示,心理應激導致包括......
近日,中國科學院合肥物質科學研究院強磁場中心張欣課題組等依托穩態強磁場實驗裝置(SHMFF),利用自主搭建的強磁生物學研究平臺,開展了33.0T的穩態強磁場生物安全性和神經行為學影響研究,首次報道了3......
“電視看多了會讓你變傻!”這是一句父母經常“威脅”子女的警告。目前看來,這個說法是有科學依據的。隨著醫學技術的發展和生活水平的提高,人類預期壽命正在延長。20世紀初時,全球平均壽命61歲,如今已延長到......
科技日報北京6月8日電(記者劉霞)美國科學家在8日出版的《自然·神經科學》在線版上撰文指出,他們開展了迄今最大規模的縱向神經影像學研究,獲得的青少年大腦激活數據揭示了與對青少年的發育至關重要的認知過程......
美國德州大學西南分校的研究人員對大腦海馬的基因活動進行了研究,發現海馬體前部和后部存在顯著差異。這一發現發表在今天的《Neuron》雜志上,它可能有助于揭示涉及海馬的各種大腦疾病,并可能最終幫助我們找......