政風宣導詳細內容

【保防宣導】社群網路與情資蒐集

2017-12-07 輔導室

社群網路與情資蒐集
■ 法務部調查局資通安全處 雷喻翔
隨著網路技術普及再加上無線通訊的發展,人手一機走到哪瀏覽到哪的現象隨處可見。當單純地瀏覽網頁已不能夠滿足一般使用者的需求,隨之而來的是提供使用者互動交流的社群網路應用服務,讓使用者無論身在何處皆可與親朋好友分享生活周遭的一切。然而當原本立意良善的科技發展被惡意人士濫用時,所衍生的後果往往需要花費更多工夫加以補救。
近幾年恐怖分子活動頻繁,例如伊斯蘭國(IS)及蓋達組織(AI-Qaeda),其間的串聯與活動亦搭上了社群網路的發展,在其推波助瀾下,政府當局不得不投注心力想方設法遏止這股潮流。身為社群網路龍頭之一的臉書(Facebook),也宣示極力發展AI(Artificial Intelligence)人工智慧技術以偵測恐怖分子於社群網路上散播之惡意訊息。在此背景之下,本文旨在介紹當前
社群網路技術發展及情治機關情蒐方向可能之發展。
社群網路簡介
社群網路興起於2002 年初期,當時由於Web 2.0 的發展,使得網頁應用程式不再侷限於讓使用者單方面從伺服器端接收資訊,使用者開始可以與網頁產生更多的互動,甚至可以藉由網頁與其他使用者產生連結,逐漸地建構了社群網路的雛形。所謂的社群網路其實就是現實生活中的人際關係及虛擬的網路世界兩者的互相投射與聯結。以現在全球最受歡迎的社群網路臉書為例子,使用者可以透過臉書應用程式與朋友互動,傳送彼此間溝通的訊息、推薦喜歡的餐廳、評價某部電影的內容等。藉由這些互動,臉書可以將使用者與擁有共同興趣或喜好的第三人串聯在一起,逐步擴大自己的生活圈。這種自動推薦朋友的方式很容易將一群人連結成一個群組或社團,以往我們熟知的實體社團已被這種虛擬的社團所取代,當要號召同一社團內的成員集體行動時,不再需要為了聯絡方式而傷透腦筋,只須在網路上一個簡單的訊息傳遞便可以達到一呼百諾的情勢。2011 年初的茉莉花革命以及2014 年在臺灣發生的太陽花學運都是藉由社群網路凝聚了龐大的人潮。
然而原本立意良善的技術經由有心人士的利用,瞬間變成了犯罪者的溫床。恐怖分子便相中了這塊執法者公權力尚無法直接介入的祕境,開始進行了組織性的宣傳及招募新血,誓言將他們所宣稱的聖戰傳遞到世界上的每一個角落。透過網路的渲染,惡意的假消息及串連活動防不勝防。既然這是由於社群網路技術發展所致,當然也應該由社群網路技術本身來加以制衡,這也就是最近幾年社群網路大廠競相投入最重要的研究議題之一。
社群網路語意分析
語意分析是自然語言處理(NaturalLanguage Processing) 的應用之一。自然語言處理簡而言之就是教電腦可以自動識別人類使用的文字,應用的層面包含自動翻譯、文字校對、自動問答系統及語意分析等。語意分析除了讓電腦自動識別文字內容以外,還需要進一步理解文字背後所隱含的意義。例如:「科比.布萊恩全場投20 中1,不愧是打鐵界的一哥」這句話看似稱讚,其實是在暗諷投籃命中率過低。語意分析便是能夠自動察覺使用者實際所要表達的意思。社群網路由於連結全球數以萬計的使用者,每天產出的資料量呈現爆炸性的發展。這些巨量資料裡頭或許隱藏著恐怖分子間溝通的暗語,或是不法分子意圖攻訐政府所散布的假新聞等,這些資訊對於執法機關而言都是相當珍貴且有
用的訊息。
然而如同在砂礫中找尋珍珠般,這項工作無法單靠人力來完成,必須仰賴電腦的人工智慧來發掘不易發現的線索,隨之而來的技術就是社群網路語意分析。一套完整的社群網路語意分析系統包含下列4項步驟:資料蒐集、資料整理、資料分析及資料呈現。
資料蒐集其實就是網路爬蟲,針對我們鎖定的目標,持續性地透過程式蒐集相關資料。現在熱門的社群網路,像是臉書及推特(Twitter),皆有推出相對應的應用程式介面(Application Programming Interface,API)方便研究人員擷取該網站上的資料,至於沒有提供API 的社群網站,例如PTT(批踢踢實業坊),我們可以使用專為處理大量資料而開發的程式語言(Python 或
是R language)提供的套件輕鬆蒐集資料。以往繁複的資料蒐集工作並沒有隨著資料量指數型遞增而越發困難,相對地開發者則是擁有越來越多便捷的開發工具。
資料整理則是在做資料清洗(DataCleaning)。第一階段蒐集完資料後,並非所有資料都是有用的,必須汰除不需要以及冗餘的資料,並且將資料正規化以利下一階段資料分析。