大數(shù)據(jù)未必能改變社交,但它了解社交
  《紐約時報》曾發(fā)表過一篇叫《大數(shù)據(jù)做不到什么》的文章,記者David Brooks認為大數(shù)據(jù)首先不擅長的是社交,因為數(shù)據(jù)側(cè)重社會交往的“量”而非“質(zhì)”。
  但是,大數(shù)據(jù)在社交媒體上的應(yīng)用程度已經(jīng)今非昔比了。就近舉個例子,這次世界杯上IBM和騰訊進行了一次合作,由IBM在社交媒體平臺上挖掘信息,然后由騰訊策劃報道。
  球迷們每天發(fā)那么多消息,而且大多是文字信息而非數(shù)字,他們是怎么挖掘和分析的呢?壹讀君摘幾個他們的技術(shù)讓大家感受一下。
  首先是“命名實體識別”,不管球迷是用手機還是電腦發(fā)消息,都會有一些文字沒有標點符號,這個技術(shù)可以把人名啦、球隊名等等先識別出來,來辨別不同短語的不同含義。
  然后是“話題檢測”,也就是識別球迷們討論的是什么話題。對于球迷來說,這個技術(shù)的好處在于,媒體會針對他們所關(guān)心的話題來報道賽事。
  最后是“語義情感分析”,也就是搞清楚球迷在討論什么話題后,再判斷球迷的立場。這樣一來,比賽之后,球迷們對球賽或者隊員的看法就一目了然了。
  所以說,以前技術(shù)可能只擅長挖掘大……數(shù)據(jù),也就是數(shù)據(jù)本身,而現(xiàn)在,它還能判斷你們在聊什么。
  未來不可預(yù)測,大數(shù)據(jù):怪我咯?
  反大數(shù)據(jù)思潮中另一個重要觀點是,大數(shù)據(jù)只是基于對歷史信息的梳理,無法預(yù)測未來。
  2008年,谷歌公司建立了一個預(yù)測流感趨勢的網(wǎng)站,用統(tǒng)計網(wǎng)絡(luò)搜索關(guān)鍵詞的方法來計算流感在某地區(qū)發(fā)生的可能性。這個網(wǎng)站當(dāng)即被作為大數(shù)據(jù)預(yù)測未來的經(jīng)典案例,然而,這個系統(tǒng)卻沒預(yù)測到2009年H1N1禽流感的爆發(fā)。雖然外界沒說什么,但谷歌內(nèi)部憋了一口氣,立即對預(yù)測算法做了調(diào)整。新的算法引起了另一個問題,他們的預(yù)測工具變得比更年期女性還敏感,動不動就發(fā)布疫情預(yù)報。
  到了2013年2月,《自然》雜志實在忍不住發(fā)表文章說,你們谷歌的不靠譜預(yù)測導(dǎo)致1月份流感疫苗都脫銷了可還行!
  有人拿大數(shù)據(jù)這種“測不準”的尷尬跟地質(zhì)學(xué)的“均變論”類比,因為以古論今的觀點容易忽略了那些不可預(yù)知的事件,積累了再多過去的信息,也沒有辦法知道接下來會發(fā)生什么突變。
  不過,大數(shù)據(jù)服務(wù)商們可沒打算改行去算命,至少現(xiàn)在沒有?;氐轿恼伦铋_始的剁手黨案例,你以為電商們真的笨到以為這種廣告投放能百分之百達到效果嗎?圖樣圖森破,他們選擇這種推薦方式只不過是因為它容錯率高而已。就算推薦的商品用戶沒相中,大不了再推薦就是了。目前,他們并沒有對大數(shù)據(jù)預(yù)測抱有高度的信心,在那些不允許大誤差、嚴重關(guān)切企業(yè)利益的商業(yè)活動中,是不會僅憑大數(shù)據(jù)預(yù)測來做決策的。
  話說回來,預(yù)測未來是個高深的概率問題,大數(shù)據(jù)可能不行,但目前也沒有其他工具行。
  不管你信不信,機器只會變得越來越聰明
  David的文章還提到數(shù)據(jù)分析不懂?dāng)⑹拢膊欢季S的浮現(xiàn)過程。然而,今年7月,美聯(lián)社宣布今后將采用一種軟件產(chǎn)品來撰寫企業(yè)財報消息,這種機器人就是依靠大數(shù)據(jù)來抓取信息,根據(jù)算法來撰寫新聞,它們甚至可以完美模擬人類作者的語調(diào)和風(fēng)格。
  2011年IBM造了個叫“沃森”的計算機出來挑戰(zhàn)人類,在美國智力競賽節(jié)目《危險邊緣》(Jeopardy?。┲袏Z冠。這一次,它已經(jīng)可以識別人類語言,分析斷句、詞義,甚至連雙關(guān)語、反語都不在話下。它通過數(shù)據(jù)對比和模擬人類聯(lián)想得出答案,再用人類語言回答上來。壹讀君看了一下節(jié)目,他答對的問題從歐盟2010年文化之都、電影《百萬寶貝》到印度的吠陀梵語,五花八門。重要的是,這些問題都是在互聯(lián)網(wǎng)斷開的情況下回答上來的,不用度娘就這么博學(xué),真是給跪了。
  所以說,在David寫完文章之后,大數(shù)據(jù)世界的變革仍在繼續(xù),工程師們需要專注的只是算法,算法,還是算法。
  當(dāng)然了,反大數(shù)據(jù)的人們關(guān)注的問題還有在進一步發(fā)展大數(shù)據(jù)應(yīng)用時,如何保護用戶的隱私?人們不僅要為黑客擔(dān)心,還不希望看到企業(yè)為了利益而侵犯大眾隱私。反過來,使用大數(shù)據(jù)工具的企業(yè)們其實也在為數(shù)據(jù)的真實性而擔(dān)心,比如招聘時抓取的簡歷信息會不會有造假成分、抽樣來的微博用戶是不是雇傭水軍炒作話題。
  但是,這些與其說是科學(xué)問題,不如說是道德問題。
  說了這么多,壹讀君只不過想要說明一個寡淡的真理,任何新興事物出現(xiàn)的時候必然帶有一定泡沫,重要的是在泡沫被拂去之前,你是不是已然醉了。

 高頓網(wǎng)校官方微信
掃一掃微信,關(guān)注*7財經(jīng)資訊