天天看點

閑話Google拼音輸入法及其它(一)

暮春三月,草長莺飛,IT業界層出不窮的傳聞八卦也有如雨後春筍此起彼伏地湧入網際網路。這邊廂有所謂人事地震,那一處又陡傳高管離職,于是人們奔走相告——灰色唷,黑幕呀,爆料喽,潛規則啦……

花開數朵,各表一枝,這一回要說的是Google拼音輸入法剽竊事件。

這件事其實往簡單裡說也就一句話:Google新推出的網際網路輸入法涉嫌剽竊了此前Sogou推出的拼音輸入法的詞庫。苦主聲稱在搜狗詞庫建立之初就加入了“詞庫指紋”,現在這些以員工姓名、綽号為印記的“指紋”原封不動地都出現在了Google輸入法的詞庫中,甚至一些Bug詞語也同樣被克隆了。

 輸入“佟子健”對比:

閑話Google拼音輸入法及其它(一)

Google輸入法

閑話Google拼音輸入法及其它(一)

搜狗輸入法

    輸入“趙立洋”對比:

閑話Google拼音輸入法及其它(一)
閑話Google拼音輸入法及其它(一)

    輸入“郭博”對比:

閑話Google拼音輸入法及其它(一)
閑話Google拼音輸入法及其它(一)

    輸入“茹立雲”對比:

閑話Google拼音輸入法及其它(一)
閑話Google拼音輸入法及其它(一)

鐵證如山,口水四濺。一邊看新聞後面那些慷慨激昂的評論,一邊喝黃酒啃雞翅,不亦快哉。

起初我想,“詞庫指紋”這個創新的說法當真又形象又精辟,還透着點生物識别的高科技味道,搜狗輸入法小組的工程師們真是太有才了。但是不亦快哉之後啃了一個雞翅,就憶起其實是有珠玉在前。

話說上個世紀九十年代初,我國漢字字元編碼标準起草人胡萬進先生就曾在“胡”字編碼裡嵌入了聞名遐迩的“胡萬進印”四字,堪稱數字簽名用于知識産權保護的啟蒙,隻可惜當時沒總結出個“字庫指紋”的概念包裝。再啃再想,類似詞庫指紋的做法在曆朝曆代流傳的藏頭露尾詩和字謎中也曾有所表現。啃了兩個雞翅就總結出詞庫指紋的創新性有折扣,欣欣然感覺自己也蠻有才的。當然,搜狗采取的版權保護政策能夠師法自然,逾古出新,也算是難能可貴。

閑話Google拼音輸入法及其它(一)

建立一個Microsoft Office Word(2000以上的版本)文檔,在其中輸入一個“胡”字(隸書或者幼園),将字号設大(值在100左右或将顯示比例增大為500%),按滑鼠右鍵,在菜單中選擇“字型”,将其改為空心字,然後會發現,“胡萬進印”四個字出現在“古”字旁的“十” 字中間

啃到第三個雞翅的時候,看到有PCword也對此事予以長篇報道。但是粗略讀過之後,感覺這樣一件沸沸揚揚的事情翻譯成English不僅起不到樹國人志氣的作用,反而是明珠投暗了。西洋人不僅沒有“字”的概念,而且所有的詞都是由有數的字母組成,要跟他們解釋詞的拼法和詞頻尚有剽竊抄襲一說,豈不是對牛彈琴麼?

看到這裡,大家對Google拼音輸入法事件的認識是否又提升到了一個新的高度?

有關此事的另外一些觀點,且待明天再與大家分享。

繼續閱讀