計世網

數據變多 看媒體如何借助算法優化內容分析
來源:全媒派
2020-01-06
隨著媒體越來越多地進行內容創新和產品探索,能夠反映用戶情感態度的數據調查,已成為檢驗創新效果的重要標準。

 

信息大爆炸時代,豐富的數據資源是有待挖掘的寶藏之地,卻也很可能變成壓力之源。

隨著媒體越來越多地進行內容創新和產品探索,能夠反映用戶情感態度的數據調查,已成為檢驗創新效果的重要標準。

Maass Media是《衛報》美國分部的移動創新實驗室(the Guardian US Mobile Innovation Lab)引入的數據分析合作機構,致力于幫助《衛報》深入了解用戶。

此前,一篇名為《零基準分析:衡量移動創新項目的測量方法》(Analysis Without Benchmarks: An Approach forMeasuring the Success of Mobile Innovation Projects)的文章介紹了Maass Media和實驗室共同合作進行用戶調查分析的具體操作。比如,在2016年,為了測試用戶對手機端的不同新聞格式的態度,他們以總統大選為契機,展開了用戶對實時結果推送反應的實驗。

在用戶調查中,Maass Media的一個特色是提供了很多開放式問題,這些開放式問題能幫助調查者更好地洞察用戶深層心理,避免了封閉式問題的一些弊端。但是,開放式問題會帶來巨量的反饋信息,如果通過人工方式進行分析,效率會非常低。那該如何解決這個問題呢?

本期全媒派(ID:quanmeipai)獨家編譯Medium最新文章,一起來看,如何借助算法解決包含大量非標準數據的分析難題。

答案在此:自然語言算法

為了更準確地衡量新實驗的效果,Maass Media和實驗室十分重視用戶的情緒和感覺,想通過對實驗對象的反饋調查來發現用戶反饋的態度積極與否。

因此,除了客觀選擇題外,在用戶調查表的結尾會有一個開放式問題:“關于這次實驗,你還有什么想告訴我們的嗎?”

通過鼓勵開放式回答,用戶可以為調查提供更多形式的反饋,從而補充封閉式問題的不足??梢哉f,開放式問題為用戶調查提供了用戶反饋的盲點補充。

早期,在移動端的調查數據收集時,由于調查數量比較小,Maass Media通過人工閱讀和手動分類就能完成分析。但是,隨著用戶人數的增加,開放式問題的回復達到成千上萬時,這種方式就顯得太低效。同時,由于主觀性的存在,每個人對答案的理解和分類也存在很大差異。

Maass Media提出,需要找到一種新的分析方法,既能加速數據分析處理過程,也能讓處理標準一致。

“我們的解決方案是用自然語言處理(NLP)開發一個情感分析算法。” Maass Media高級數字分析師Lynette Chen說道。

手工5小時,算法5分鐘

自然語言處理是計算機程序分析定性數據的有效方法之一。有了合適的模型后,基于大量的文本數據,調查者就可通過算法進行情緒分析,迅速完成受訪者對某個特定主題的情緒反應與觀點的分析。

“為內容分析提供可靠的NLP解決方案,不僅可以減少人工處理的時間和精力,還可以有效減少以往分析中存在的主觀性偏差。” Chen說道。

雖然已有不少成熟的模型可供借鑒,Maass Media和實驗室決定從頭構建獨立的模型,隨后,他們依據不同的數據集訓練模型來對比分析模型的成功率。在經過了三次模型迭代后,他們得到了相對完美的解決方案。

模型創建過程

依據自有模型,對自有數據集和公開數據集進行對比檢驗后,研究者發現,第一次迭代的算法在公開數據集上的表現并不理想,因為內外數據集對情感詞匯打標簽的方式并不相同,經過第二、三次迭代后,他們借鑒了VADER算法模型,獲得了良好效果。

“VADER算法由佐治亞理工學院的研究人員創建,并通過眾包(Crowdsourcing: 指從一廣泛群體,特別是在線社區,獲取所需想法、服務或內容貢獻的實踐。)不斷進行再培訓。這一模型所訓練的數據集更加廣泛,包含了用戶對一系列單詞、表情符號、俚語和首字母縮略詞的評分數據。” Lynette Chen介紹道,“經過分析,我們決定改用這一算法框架,而不是使用我們自己的原始基算法,因為它可以讓我們準確地分析更大范圍的單詞。”

在這一算法穩定成熟后,通過使用自然語言處理,大大減少了標記和統計用戶非標準化回答所需的時間。“如果由我們自己人工閱讀和手動標記一份用戶關于大選期間媒體推送的情感態度數據,這項工作可能將花費大約5小時。”Chen表示,但通過自然語言處理算法,可以在不到5分鐘的時間內完成這項工作。

雖然歷經了各種“痛苦”的磨難,但是Maass Media認為,開發NLP解決方案是一項富有價值的投資,這一過程的構建雖然耗時,但是從結果來看,可以顯著減少數據分析所需的時間。

“不過這需要一支具備相當技能的團隊,并且還要對算法進行不斷迭代,來提高兼容性和準確率。” Chen說道。

原文鏈接:https://medium.com/the-guardian-mobile-innovation-lab/more-data-less-work-experimenting-with-natural-language-processing-for-faster-survey-analysis-d1665200d8e4

責任編輯:焦旭