天天看點

技術分析:D&G 創始人真被盜号了嗎?

意大利奢侈品牌 Dolce & Gabbana(杜嘉班納)的創始人一番腦殘的侮辱性言論暴露了自己狂妄傲慢的龌龊内心,也讓其品牌為此付出了代價:上海大秀取消、代言人解約、電商全線下架。

事情的大緻流程是:D&G 為籌備上海大秀釋出了幾支宣傳片,其中有一個華裔模特用筷子吃意大利菜的視訊,從内容到風格讓很多觀者覺得反感。于是後來這個視訊就被下線了。如果事情到此為止,充其量也隻能算上“涉嫌”和“争議”。但後來其創始人在 Instagram 對網友發洩不滿,放言說要是按他的想法就“堅決不删視訊”,并且要在以後的所有國際采訪中說中國是“country of ?????”。這顯然就不是對不同文化的了解差異了吧?

關于此事的評論已經鋪天蓋地,不差我這一份觀點。不過我想來談個細節:事件最初曝光時,當事人 Stefano Gabbana 辯解說自己是被盜号了。雖然這個理由在現在看來是非常敷衍,但我當時确實想了下,是否有這樣的可能性存在呢?聯想到之前在《紐約時報》上爆料特朗普的匿名匿名文章,有程式員将文章中的内容和特朗普内閣成員的 Twitter 内容進行相關性分析并釋出在 Github 上。那有沒有可能将此段對話與 Gabbana 日常言論作對比,分析其相關性呢?

于是我先後嘗試了 3 種相關性比較方法。但很遺憾,結果不能說不好,隻能說……emmmm……這是一門玄學。因為現有的文本相關度或相似性分析大都是基于語義的。也就是說,A 和 B 表達同一件事的相似度,很可能大于 A 本人表達兩件不同的事情。以至于我覺得,關于紐約時報匿名文章的分析也可能存在類似情況:副總統的相關性最高,或許主要是因為其平常言論涉及的話題和文章更接近。而在這件事上,借以判斷到底是不是一個人,就不太靠譜了。再加上 Gabbana 之前的釋出和此番對話都很短,樣本量非常小,幾乎沒有可參考性。

不過我後來去他的 Instagram 上翻了一下,依然發現一些蛛絲馬迹,值得分析一波:

1. 單引号

有一個漢語中沒有但英語中很常見符号:'(單引号),比如 I'm Crossin. 但 Gabbana 在 ig 上的發文中,其實用的不是最常見的英文半角單引号,而是一個 unicode 字元 ’。一般人可能不注意,但我對這個再熟悉不過了,因為有無數的 Python 初學者在最開始的代碼中就因為沒有用英文半角引号而報錯!

技術分析:D&G 創始人真被盜号了嗎?

但巧的是,曝光出的對話裡,用的也是這個特殊的單引号。而聲稱同時被盜号的 D&G 官方賬号就沒有這個習慣。

技術分析:D&G 創始人真被盜号了嗎?

2. 标點習慣

我抓下了 Gabbana 最近的 30 條 ig 推文,發現他發文喜歡使用連續的 3~4 個感歎号,30 條中有 8 處。而在曝光對話中,也有 4 次連續感歎号和 4 次連續問号。

技術分析:D&G 創始人真被盜号了嗎?

另外,他也喜歡用 ... 的省略号,而且和很多人會固定用 3 個點不同,他數量不定且一般在 4 個及以上的點,30 條中有 4 處,隻有一處是 3 個點。對話中有一處是 3 個點,兩處 4 個點。

還有就是,很少有人會在标點之前空格。但在他的對話和推文中也都偶有發生。這些都是打字習慣和輸入法所決定的,如果換了人,甚至換了手機,都有可能不一樣。

3. 連續表情

看下面這張彙總圖,這太明顯了:此人極度喜歡用 emoji 表情,用連續的表情,而且對❤️情有獨鐘。

技術分析:D&G 創始人真被盜号了嗎?

而此次最可恥的一句話,也恰好符合這個風格!

技術分析:D&G 創始人真被盜号了嗎?

而對于無此習慣的人來說,讓你馬上打這個表情出來,你都未必能找到。

4. 結尾

有人喜歡發文結尾加上句号,哪怕隻有一個詞。比如他們的官方賬号:

技術分析:D&G 創始人真被盜号了嗎?

而 Gabbana 不是此類。對話和 30 條推文中,僅有一條是 . 結尾的。相反最近的盜号聲明和緻歉聲明,均以 . 結尾,沒有表情和感歎号。反倒不符合他一貫的行文習慣……

技術分析:D&G 創始人真被盜号了嗎?

這又是為啥呢?按他習慣難道不應該是:

My Instagram account has been hacked !!!!!

It’s NOT ME !!!!! I love China and the Chinese Culture ❤️❤️❤️❤️❤️❤️

雖然從以上這幾點細節,并不能實錘說,Gabbana 一定沒有盜号。但至少可以說,這些對話中并沒有表現出與他以往行文風格很不符的地方。就算真的是被盜,那這黑客也真的是高手,不但技術好,而且還這麼花心思去模仿 .... 佩服佩服 !!!!!!

話說回來,我這也是多此一舉。因為盜沒盜号,Instagram 官方從登入記錄一眼就能看出來。之前官方就曾為美國女歌手賽琳娜·戈麥斯(Selena Gomez)發表過聲明證明其賬号被盜。真的被盜了,是很容易證明的。然而 D&G 兩位創始人在所謂的“道歉”視訊中都閉口不提之前所謂的盜号一說,想必大家也都心知肚明了。

文化上存在差異,這是很正常的事情,但這不是某些人狂妄和傲慢的借口。有錯就要認,挨打要立正。别又想那啥,又想那啥。瞧不起别人的人,最終也會被别人瞧不起。

雖然我本來就沒買過 D&G(因為他家也沒有格子襯衫和雙肩包),這次之後就連以後光顧可能性也不存在了。拜拜!

PS:

最後提下,前面說到文本相關性比較,主要是基于 TF-IDF 算法。這個阮一峰曾經寫過一個系列:

TF-IDF與餘弦相似性的應用

http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

我分别嘗試了 Python 的 gensim 庫(gensim.models.TfidfModel)和 sklearn 庫裡的相關方法(sklearn.feature_extraction.text.TfidfVectorizer)。雖然這次沒用上,但回頭也可以做個案例來介紹下。

另外過程中我還找到了另一個東西:百度 AI 開放平台上的“短文本相似度接口”。除此之外還有不少有意思的接口,感覺又有東西可以玩了

技術分析:D&G 創始人真被盜号了嗎?
技術分析:D&G 創始人真被盜号了嗎?

PPS:

昨天釋出了一篇關于程式設計教室免費招收線下實訓生的說明。有興趣的同學可以翻下昨天的文章了解一下。

歡迎你來跟我們一起走上程式設計之路。