天天看點

一點小小的收獲(Google拼音背後的科學)

  前兩天講解Google拼音的使用技巧時,無意中發現Google這款小軟體中居然應用了很多資訊論的知識。我把這些發現記錄下來,将來可以作為教學材料應用到我的課堂教學中,也許會引發出學生對課程的學習興趣。 

1. good morning不簡單

一點小小的收獲(Google拼音背後的科學)

  如上圖所示,morning單詞我們輸到第四個字母n時,morning單詞就完全出來了,其實相當于ing在morn的前提下機率為1(必然事件),數學表示(是一個條件機率)為:p(ing/morn) = 1。這個時候表現出來的就是信源的記憶性,也就是說英語的字母和字母之間有關聯關系(當然遠遠不止字母之間)。記憶性就是資訊可以被壓縮的前提,從輸入法的角度來看,我們不用把7個字母完全敲一遍,而是隻敲4個字母,這就是壓縮。從資訊傳輸的角度,我們完全可以傳輸morn3來代表morning,其中3表示後面還有三個字母,也比傳輸morning節省了網絡帶寬和傳輸時間。 

2. 使用者詞典裡藏玄機

一點小小的收獲(Google拼音背後的科學)

  為什麼Google拼音的輸入準确率會越來越高呢(見上圖)?原來使用者字典裡面暗藏着玄機,見下圖。

一點小小的收獲(Google拼音背後的科學)

把使用者詞典導出後可以看到每個詞後面都跟着一個數字,這個數字是使用者在鍵入拼音時輸入該詞的次數,也就是說使用者在鍵盤上輸入了5次bmli(我用的雙拼),有3次是“周遊”,2次是“便利”,是以得出使用者輸入“周遊”的機率是0.6,輸入“便利”的機率是0.4,是以當使用者再次輸入bmli時,Google自動把機率高的“周遊”排在前面。我們當然覺得Google輸入的比較準确,就是這樣來的。

  是以,最重要的我們要讓Google能夠長期記憶我們的輸入資訊,也就是說使用者需要對Google拼音進行長期訓練,這樣Google拼音的準确性就會越用越高了。是以對使用者詞典的備份就很有必要了,詳細情況可以參考我上一次講座的視訊Google拼音的使用技巧。

轉載于:https://blog.51cto.com/wangding/1363070