2021-4-10 | 互聯(lián)網(wǎng)
1我國網(wǎng)絡(luò)輿情發(fā)展現(xiàn)狀及分析
據(jù)第29次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)顯示:截至2011年12月底,中國網(wǎng)民規(guī)模突破5億,達(dá)到5.13億,全年新增網(wǎng)民5580萬。
互聯(lián)網(wǎng)普及率較上年底提升4個(gè)百分點(diǎn),達(dá)到38.3%。中國手機(jī)網(wǎng)民規(guī)模達(dá)到3.56億,占整體網(wǎng)民比例為69.3%,較上年底增長(zhǎng)5285萬人。家庭電腦上網(wǎng)寬帶網(wǎng)民規(guī)模為3.92億,占家庭電腦上網(wǎng)網(wǎng)民比例為98.9%。農(nóng)村網(wǎng)民規(guī)模為1.36億,比2010年增加1113萬,占整體網(wǎng)民比例為26.5%。2011年,網(wǎng)民平均每周上網(wǎng)時(shí)長(zhǎng)為18.7個(gè)小時(shí),較2010年同期增加0.4小時(shí)。2011年中國網(wǎng)民即時(shí)通信使用率上升較快,增至80.9%。同時(shí),許多傳統(tǒng)交流溝通類應(yīng)用的用戶規(guī)模出現(xiàn)萎縮:電子郵件使用率從2010年的54.6%降至47.9%,用戶量減少392萬人;論壇/BBS使用率則由32.4%降至28.2%,用戶量也略有減少。隨著網(wǎng)絡(luò)的應(yīng)用普及,網(wǎng)絡(luò)輿情反映已經(jīng)逐漸取代了傳統(tǒng)的輿情交互途徑,成為了社會(huì)大眾對(duì)現(xiàn)實(shí)社會(huì)的真實(shí)情感反映。在當(dāng)前我國經(jīng)濟(jì)快速發(fā)展,社會(huì)轉(zhuǎn)型的關(guān)鍵時(shí)期,隨著經(jīng)濟(jì)社會(huì)文化的發(fā)展,社會(huì)利益關(guān)系更趨多樣化、復(fù)雜化,人們的思想意識(shí)也更加多元化、獨(dú)立化,往往一些問題一經(jīng)網(wǎng)絡(luò)討論傳播,就會(huì)立即引起廣大網(wǎng)民的關(guān)注,繼而形成網(wǎng)絡(luò)輿情熱點(diǎn),并引起網(wǎng)民強(qiáng)烈的反響和激烈的討論。
2網(wǎng)絡(luò)內(nèi)容控制的技術(shù)方向
近年來,國際上開發(fā)的網(wǎng)絡(luò)輿情監(jiān)控產(chǎn)品種類繁多,最為常見的是以內(nèi)容分級(jí)和過濾為技術(shù)方向的產(chǎn)品,其作用類似“電子保安”。麻省理工學(xué)院所屬W3C(WorldWideWebConsortium)推動(dòng)了PICS(PlatformforInternetContentSelection)技術(shù)標(biāo)準(zhǔn)協(xié)議,完整定義了網(wǎng)絡(luò)分級(jí)的檢索方式。以PICS為核心的RSAC研發(fā),例如RSACI(RSAContheInternet)分級(jí)系統(tǒng),以網(wǎng)頁內(nèi)容中呈現(xiàn)出性(Sex)、暴力(Violence)、不雅言論(Language)或裸體(Nudity)表現(xiàn)程度等四個(gè)維度進(jìn)行相應(yīng)管控。作為美國過濾軟件的代表CyberPatrol,用戶可以對(duì)其中監(jiān)控對(duì)象的名單等內(nèi)容進(jìn)行修改。政府部門通常也訂立阻止用戶訪問的“互聯(lián)網(wǎng)網(wǎng)址清單”,以實(shí)現(xiàn)不良信息的過濾和篩選。
目前,我國參照國際上網(wǎng)絡(luò)內(nèi)容控制服務(wù)和軟件,形成了以下幾個(gè)網(wǎng)絡(luò)內(nèi)容管控的技術(shù)方向:
1)過濾/屏蔽技術(shù):(1)使用統(tǒng)一資源定位器(URL)列表的服務(wù)器端過濾;(2)使用URL列表的客戶端過濾;(3)使用文本內(nèi)容分析的過濾(包括服務(wù)器端和客戶端)。2)標(biāo)識(shí)和分級(jí)系統(tǒng):(1)第一方標(biāo)識(shí)/分級(jí);(2)第三方標(biāo)識(shí)/分級(jí);(3)互聯(lián)網(wǎng)內(nèi)容選擇平臺(tái)(PICS),該平臺(tái)結(jié)合了第三方分級(jí)和用戶自行分級(jí)兩種方式。3)年齡認(rèn)證系統(tǒng):(1)基于信用卡的年齡認(rèn)證系統(tǒng);(2)基于獨(dú)立發(fā)出的ID(Identification)的年齡認(rèn)證系統(tǒng)。4)新型頂級(jí)域名(TLD)/分區(qū):(1)為對(duì)未成年人有害的內(nèi)容建立的新型TLD,如.xxx或.adult,表示定位于該域名的網(wǎng)頁上的內(nèi)容(以及來自于該域名的電子郵件)是對(duì)未成年人有害的內(nèi)容;(2)為無害于未成年人的內(nèi)容建立新型TLD,如kids等,表示定位于該域名網(wǎng)頁上的內(nèi)容(以及來自于該域名的電子郵件)一般被視為適合所有未成年人。這兩項(xiàng)技術(shù)雖具可行性,但目前尚未投入使用。作為一種替代性辦法,可以建立一種新的次級(jí)域名(如.us.kids),這種域名不需要ICANN對(duì)現(xiàn)有頂級(jí)域名系統(tǒng)做出調(diào)整(;3)通過分配一套新的IP地址(新的IP協(xié)議——IPv6,尚未廣泛應(yīng)用)建立網(wǎng)上“安全區(qū)”,任何在該IP地址范圍內(nèi)的內(nèi)容可視為“安全區(qū)域”或“灰色區(qū)域”內(nèi)容,屬于無害信息或既無益也無害于未成年人的信息。5)監(jiān)控技術(shù):(1)監(jiān)督和限時(shí)技術(shù);(2)實(shí)時(shí)內(nèi)容監(jiān)督/屏蔽方法,可用于不適用過濾技術(shù)的網(wǎng)絡(luò)傳播領(lǐng)域。6)安全空間(Greenspaces):這是一種封閉系統(tǒng),只允許訪問系統(tǒng)管理員選定的內(nèi)容,不能訪問系統(tǒng)之外的網(wǎng)站。相關(guān)的網(wǎng)絡(luò)輿情監(jiān)管部門及行業(yè)自律組織應(yīng)該在考慮公民隱私權(quán)、網(wǎng)絡(luò)言論自由、維護(hù)網(wǎng)絡(luò)秩序等合理因素的基礎(chǔ)上,在按比例、遵循相關(guān)法律法規(guī)的前提下考慮采取一種或幾種技術(shù),審核用戶的真實(shí)注冊(cè)信息、言論內(nèi)容的合法性以確保對(duì)網(wǎng)絡(luò)輿情的合理有序監(jiān)管。
3網(wǎng)絡(luò)輿情采集與獲取技術(shù)
3.1網(wǎng)站定向采集
網(wǎng)站定向采集是實(shí)時(shí)發(fā)現(xiàn)互聯(lián)網(wǎng)上新出現(xiàn)的信息是否包含用戶關(guān)注的信息,通過周期性地發(fā)送HTTP請(qǐng)求,模擬用戶網(wǎng)頁瀏覽行為,掃描相關(guān)網(wǎng)站URL列表,以實(shí)現(xiàn)對(duì)關(guān)注站點(diǎn)的實(shí)時(shí)采集,通過鏈接簽名技術(shù)和鏈接比對(duì)分析技術(shù)來判斷所關(guān)注的網(wǎng)頁是否已進(jìn)行了信息更新,對(duì)出現(xiàn)更新的頁面重新下載并存入頁面信息庫,若無更新,則設(shè)定周期進(jìn)行下一輪的掃描過程。
通過頁面內(nèi)容分析技術(shù)對(duì)下載到的更新頁面信息進(jìn)行分析和處理,若該信息符合信息報(bào)警提示的條件,則進(jìn)行報(bào)警提示處理。
采集周期和采集URL列表可以由用戶自行設(shè)定,周期越短,掃描頻率越高,對(duì)于信息的更新就越快,實(shí)時(shí)性更強(qiáng)。
3.2網(wǎng)絡(luò)垂直搜索
網(wǎng)絡(luò)垂直搜索可以實(shí)現(xiàn)從網(wǎng)絡(luò)上自動(dòng)收集與監(jiān)控專業(yè)領(lǐng)域相關(guān)的Web網(wǎng)頁數(shù)據(jù)。同時(shí),網(wǎng)絡(luò)垂直搜索能夠更高效地收集相關(guān)信息,也能對(duì)這些信息的更新做出更及時(shí)的響應(yīng)。
垂直搜索引擎僅專注于某一領(lǐng)域和主題,并能夠?qū)υ摼W(wǎng)頁的主題相關(guān)度進(jìn)行準(zhǔn)確預(yù)測(cè),優(yōu)先下載相關(guān)度高的網(wǎng)頁,從而提高“收獲比”和網(wǎng)絡(luò)帶寬利用效率。并且,可以通過聚焦爬蟲和監(jiān)控技術(shù),建立一個(gè)大型的網(wǎng)絡(luò)信息監(jiān)控系統(tǒng),包括對(duì)官方媒體新聞的Web站點(diǎn)上發(fā)布的新聞和代表大眾民意的博客文章及在線論壇的監(jiān)控,實(shí)現(xiàn)自動(dòng)化的收集、存儲(chǔ)、整合和處理流程,包括數(shù)據(jù)的即時(shí)可視化處理,這些均可以為開源信息數(shù)據(jù)的處理提供豐富的數(shù)據(jù)平臺(tái)。
3.3網(wǎng)絡(luò)聚焦爬蟲
網(wǎng)絡(luò)聚焦爬蟲是實(shí)現(xiàn)全網(wǎng)數(shù)據(jù)自動(dòng)采集的主要工具之一,主要負(fù)責(zé)從互聯(lián)網(wǎng)上爬取和下載與主題相關(guān)的網(wǎng)絡(luò)資源。筆者建議在原有普通爬蟲基礎(chǔ)上,對(duì)其功能進(jìn)行擴(kuò)充,能夠及時(shí)、有效地抓取與主題相關(guān)的網(wǎng)絡(luò)資源。聚焦爬蟲從組成上可分為領(lǐng)域相關(guān)初始URL種子集、頁面抓取模塊、主題相關(guān)性分析模塊以及URL查重與頁面下載模塊等。