內(nèi)容安全壓力讓互聯(lián)網(wǎng)喘不過(guò)氣,百度大腦推人機(jī)協(xié)同審核管理平臺(tái)
摘要: 百度大腦AI嚴(yán)守互聯(lián)網(wǎng)內(nèi)容安全
曾幾何時(shí),互聯(lián)網(wǎng)內(nèi)容悄然進(jìn)入了大爆炸時(shí)代。
科技的高速發(fā)展和自媒體概念的出現(xiàn),使得每一個(gè)用戶、每一個(gè)終端都可以輕而易舉成為一個(gè)“媒體”,可以自由地在互聯(lián)網(wǎng)上發(fā)布信息。而隨著用戶數(shù)和終端數(shù)日益龐大,互聯(lián)網(wǎng)內(nèi)容正在以超高的速度向我們飛奔而來(lái)。
2020年4月28日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第45次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,我國(guó)網(wǎng)民規(guī)模為9.04億,互聯(lián)網(wǎng)普及率達(dá)64.5%,我國(guó)手機(jī)網(wǎng)民規(guī)模達(dá)8.97億,固定互聯(lián)網(wǎng)寬帶用戶接入超過(guò)4.5億戶。

如此龐大的用戶和終端,既給互聯(lián)網(wǎng)帶來(lái)了無(wú)比精彩的文化,也帶來(lái)了數(shù)之不盡的垃圾,其中不乏暴力、色情、犯罪等內(nèi)容。
這些互聯(lián)網(wǎng)垃圾就像是田地間的野草一樣,汲取著互聯(lián)網(wǎng)的養(yǎng)分瘋狂成長(zhǎng),鋪天蓋地的互聯(lián)網(wǎng)垃圾給內(nèi)容安全帶來(lái)了前所未有的重壓,減負(fù)已是迫在眉睫。
互聯(lián)網(wǎng)垃圾的猖獗不可避免地引起了監(jiān)管部門的注意,而大量的未成年網(wǎng)民涌入使得監(jiān)管政策進(jìn)一步縮緊。內(nèi)容安全也因此成為各個(gè)平臺(tái)、網(wǎng)站心中難以治愈的“痛”。
2020年3月1日,《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》(以下簡(jiǎn)稱《規(guī)定》)正式實(shí)施,業(yè)界再次哀嚎一片。作為國(guó)內(nèi)首部網(wǎng)絡(luò)生態(tài)治理方面的綜合性專門法規(guī),《規(guī)定》對(duì)網(wǎng)絡(luò)信息內(nèi)容生產(chǎn)者劃定了禁止觸碰的十條紅線,這意味著懸在互聯(lián)網(wǎng)內(nèi)容頭頂?shù)倪_(dá)摩克里斯之劍又近了幾分。

再加上前幾年陸續(xù)推出的《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》《未成年人節(jié)目管理規(guī)定》《兒童個(gè)人信息網(wǎng)絡(luò)保護(hù)規(guī)定》《中華人民共和國(guó)英雄烈士保護(hù)法》《互聯(lián)網(wǎng)宗教信息服務(wù)管理辦法》等法律法規(guī),互聯(lián)網(wǎng)內(nèi)容相關(guān)政策已經(jīng)越來(lái)越緊,稍不留神可能就會(huì)因此蒙受巨大損失。
這不是我們的臆測(cè),而是實(shí)實(shí)在在發(fā)生的事情。自2017年以來(lái),因“內(nèi)容安全”的問(wèn)題而下架、停播的事例依舊歷歷在目,嚴(yán)重者甚至直接就被監(jiān)管部門封殺(比如某播,某暴走),多年經(jīng)營(yíng)瞬間煙消云散。至于因此被勒令整改者數(shù)不勝數(shù),幾乎所有的主流平臺(tái)都被監(jiān)管部門邀請(qǐng)“喝過(guò)茶”。
其次,不斷對(duì)抗、進(jìn)化的黑灰產(chǎn)成了內(nèi)容審核的另一個(gè)噩夢(mèng)。
單純的文本關(guān)鍵詞和視頻違規(guī)內(nèi)容檢測(cè)并不是什么難事,不少黑灰產(chǎn)內(nèi)容也曾因此遭受重創(chuàng),大量的賬號(hào)被封禁。眼看正面剛不過(guò),黑灰產(chǎn)隨即化整為零,轉(zhuǎn)入地下游擊,認(rèn)真研究?jī)?nèi)容審核的漏洞。

于是乎,遭受打擊后的黑灰產(chǎn)變的異常聰明,不再光明正大的出現(xiàn)在內(nèi)容審核的眼前,而是利用一切可利用的場(chǎng)景。比如在新聞中夾雜著違規(guī)內(nèi)容,在用戶評(píng)論中留下色情網(wǎng)站,又或者是昵稱使用違規(guī)信息,甚至是彈幕都有可能出現(xiàn)色情網(wǎng)站。
同時(shí),為了避免關(guān)鍵詞等審核手段,違規(guī)內(nèi)容也常常改頭換面,用同音字代替,標(biāo)點(diǎn)符號(hào)隔開(kāi),特殊符號(hào)、表情替換,違規(guī)字體拆開(kāi)等方式出現(xiàn)。同時(shí),黑灰產(chǎn)團(tuán)隊(duì)往往會(huì)準(zhǔn)備大量的小號(hào)來(lái)發(fā)布違規(guī)內(nèi)容,即便被封了也不心疼,大大地增加了內(nèi)容審核團(tuán)隊(duì)的工作量和準(zhǔn)確度。
一邊是政策不斷縮緊,迫使企業(yè)盡可能消除違規(guī)信息;另一邊是黑灰產(chǎn)的游擊對(duì)抗,想方設(shè)法躲避內(nèi)容審核,于是,夾在中間的內(nèi)容審核團(tuán)隊(duì)的處境非常艱難。同時(shí),違規(guī)內(nèi)容的快速變化使得管理和業(yè)務(wù)審核規(guī)則更新快適配難度大,也讓機(jī)器審核的技術(shù)難度和成本不斷上升,并最終反饋至人工審核層面,導(dǎo)致企業(yè)投入大量的人力物力,審核的效率卻難以提高,大量的違規(guī)內(nèi)容依舊存在。
越來(lái)越嚴(yán)格的政策和日益劇增的違規(guī)內(nèi)容之間的矛盾,使得企業(yè)不得不繼續(xù)加大對(duì)內(nèi)容審核的投入,卻始終無(wú)法改變內(nèi)容審核部門疲于奔命的結(jié)局。
究其原因,大量的人工審核并不能彌補(bǔ)AI審核能力的缺失,日益繁重的審核工作還將進(jìn)一步降低人工審核的準(zhǔn)確率,再次加速惡性循環(huán)。

為了徹底改變內(nèi)容審核團(tuán)隊(duì)低效率的現(xiàn)狀,5月15日,百度大腦開(kāi)放日互聯(lián)網(wǎng)內(nèi)容安全線上專場(chǎng)活動(dòng)上,百度AI技術(shù)生態(tài)部高級(jí)產(chǎn)品經(jīng)理Nathan向大家詳細(xì)介紹了AI審核能力與應(yīng)用場(chǎng)景。
隨著百度大腦內(nèi)容審核平臺(tái)和人機(jī)協(xié)同審核管理平臺(tái)的上線,內(nèi)容安全減負(fù)有望成為現(xiàn)實(shí)。
想要真正為內(nèi)容安全減負(fù),勢(shì)必要借用AI的自動(dòng)化審核能力,以此減輕內(nèi)容審核團(tuán)隊(duì)的工作量,因此,穩(wěn)定且高精準(zhǔn)識(shí)別是其最關(guān)鍵的能力。
為了提高審核的準(zhǔn)確率,百度大腦內(nèi)容審核平臺(tái)的做法是優(yōu)秀的AI識(shí)別能力+無(wú)比豐富的標(biāo)簽體系。
以當(dāng)下最火爆的短視頻為例,一條視頻自上傳到通過(guò)審核,出現(xiàn)在觀眾面前需要經(jīng)過(guò)以下幾個(gè)步驟。
為了提高視頻審核的準(zhǔn)確率,內(nèi)容審核平臺(tái)會(huì)配合關(guān)鍵幀抽取技術(shù)對(duì)視頻幀中的圖像、字幕進(jìn)行審核,也就是將視頻內(nèi)容轉(zhuǎn)換成圖像。

這些圖像第一步會(huì)經(jīng)過(guò)圖像黑白名單和預(yù)置的違禁圖片庫(kù),過(guò)濾掉大量不合規(guī)的內(nèi)容。黑白名單的建立則是來(lái)自于用戶自定義要求,預(yù)置的違禁圖片庫(kù)主要來(lái)自百度多年積累實(shí)踐的風(fēng)險(xiǎn)處置經(jīng)驗(yàn),以及以天為單位的快速更新迭代的監(jiān)管要求,僅僅第一步措施即可過(guò)濾大部分的不合規(guī)內(nèi)容。

第二步,圖像還將經(jīng)過(guò)14個(gè)維度的檢測(cè),包括色情、暴恐、政治敏感、公眾人物、廣告檢測(cè)、圖文審核、惡心圖、圖像質(zhì)量(清晰度、美觀度)等,如無(wú)問(wèn)題才可通過(guò)。
值得一提的是,圖像識(shí)別不僅可以抽取電商平臺(tái)的文本圖片,確保符合廣告法和無(wú)違規(guī)內(nèi)容,還可以對(duì)論壇、貼吧等UGC內(nèi)容中的圖片進(jìn)行合規(guī)性檢查,配合人臉識(shí)別技術(shù),還可對(duì)用戶頭像進(jìn)行針對(duì)性識(shí)別,避免黑灰產(chǎn)通過(guò)頭像的方式散播不合規(guī)的內(nèi)容。
如果你以為以上兩步就完成了對(duì)視頻內(nèi)容的審核,那就大錯(cuò)特錯(cuò)了。百度內(nèi)容審核平臺(tái)還搭載了語(yǔ)音識(shí)別和敏感聲音檢測(cè)技術(shù),對(duì)音頻內(nèi)容進(jìn)行檢測(cè)。簡(jiǎn)單來(lái)說(shuō),音頻首先會(huì)經(jīng)過(guò)黑庫(kù)進(jìn)行比對(duì),然后音頻內(nèi)容一分為二,一邊轉(zhuǎn)換成文字進(jìn)行審核,另一邊則通過(guò)百度大腦內(nèi)置的聲學(xué)模型進(jìn)行審核,比如嬌喘聲識(shí)別等,只有兩邊都沒(méi)有問(wèn)題才可輸出。
如果三個(gè)步驟的審核都沒(méi)有問(wèn)題,這條短視頻才可以出現(xiàn)在用戶面前,如果中間存在問(wèn)題,內(nèi)容審核平臺(tái)將會(huì)直接封禁或者轉(zhuǎn)入人工審核平臺(tái)再次進(jìn)行確定,大大減輕了人工審核的工作量。

在文本識(shí)別方面,內(nèi)容審核平臺(tái)可以對(duì)全場(chǎng)景的文字進(jìn)行審核,包括用戶評(píng)論、注冊(cè)信息、文字發(fā)布、視頻彈幕、聊天對(duì)話等,再加上黑詞庫(kù)和語(yǔ)義審核的模型,徹底杜絕黑灰產(chǎn)想要通過(guò)各類方式散播違規(guī)的可能性。
另外,內(nèi)容審核平臺(tái)已經(jīng)和EasyDL平臺(tái)打通,支持企業(yè)用戶定制審核模型,無(wú)需算法開(kāi)發(fā),只要通過(guò)簡(jiǎn)單的頁(yè)面操作,即可定制業(yè)務(wù)所需的高精度深度學(xué)習(xí)模型,大大降低了用戶的使用門檻。同時(shí),用戶還可以自由選擇審核維度和審核細(xì)粒度標(biāo)簽,并可以自行調(diào)整審核模型的松緊度,實(shí)現(xiàn)貼合業(yè)務(wù)需求的審核能力,提升內(nèi)容審核的速度和效率。
上文已經(jīng)提及,內(nèi)容審核的輸出一部分直接通過(guò),一部分直接封禁,還有一部分則需轉(zhuǎn)到人工審核團(tuán)隊(duì)進(jìn)行復(fù)審,這里就涉及到人工和機(jī)器之間的協(xié)同。
雙方如果配合度高,自然可以起到1+1>2的效果,反之就會(huì)降低審核的速度和準(zhǔn)確率。人機(jī)協(xié)同審核管理平臺(tái)的存在就是為了提升人工審核和機(jī)器審核的配合度,在現(xiàn)有的人力基礎(chǔ)上,可以完成更多的審核任務(wù),不斷提升審核團(tuán)隊(duì)的人效。

人機(jī)協(xié)同審核管理平臺(tái)的最大優(yōu)勢(shì)在于無(wú)需任何的平臺(tái)開(kāi)發(fā)成本,審核團(tuán)隊(duì)登錄即可對(duì)使用AI模型進(jìn)行過(guò)初審的多媒體內(nèi)容進(jìn)行人工校驗(yàn)。
通過(guò)設(shè)置合理的一二三審核流轉(zhuǎn)邏輯,團(tuán)隊(duì)可以快速完成內(nèi)容的審核;而通過(guò)區(qū)分高危和普通組,則可以有效降低審核精神壓力,提高審核速度。
人機(jī)協(xié)同審核管理平臺(tái)還將提供瀑布流式的審核界面,一次拉取多個(gè)審核任務(wù),完成審核后一次性提交,再加上取樣切片展示、參考信息區(qū)、前序?qū)徍私Y(jié)果展示等合理化設(shè)置,大大提升人工審核的效率。
值得一提的是,擁有人工審核團(tuán)隊(duì)的服務(wù)商或企業(yè),可以直接接入人機(jī)協(xié)同審核管理平臺(tái);而針對(duì)沒(méi)有審核團(tuán)隊(duì)的業(yè)務(wù)方,百度大腦基于該平臺(tái)也可提供人審+機(jī)審的完整方案與服務(wù)。同時(shí),借助百度云彈性拓展的機(jī)器資源,完全可以滿足企業(yè)在高峰期的業(yè)務(wù)審核需求。比如電商平臺(tái)在618活動(dòng)、雙11活動(dòng)中審核需求暴增,此時(shí)就需要更多的資源加注在審核上,極大地降低了企業(yè)的開(kāi)發(fā)成本和投入成本。
也許很多讀者都有一個(gè)疑問(wèn):AI 賦能內(nèi)容安全已經(jīng)不是一天兩天的事情,為何百度大腦能夠獨(dú)領(lǐng)風(fēng)騷,真正為內(nèi)容安全減負(fù)?
究其原因,只有準(zhǔn)確率高的機(jī)器審核才有意義,否則依舊會(huì)給人工審核帶來(lái)非常多的問(wèn)題。想要準(zhǔn)確率高,內(nèi)容審核平臺(tái)就必須擁有高精準(zhǔn)的AI識(shí)別能力和完善的審核規(guī)則標(biāo)簽,而這兩項(xiàng)恰恰是百度最擅長(zhǎng)的方向。
1.AI識(shí)別能力國(guó)內(nèi)領(lǐng)先
AI 識(shí)別能力國(guó)內(nèi)領(lǐng)先是內(nèi)容審核平臺(tái)強(qiáng)大的首要原因。眾所周知,近年來(lái)百度在人工智能方面的投入可謂是不遺余力,并且也取得了相應(yīng)的成就。
而百度大腦是百度 AI 核心技術(shù)引擎,幾乎集成了百度所有AI研究的成果,同時(shí)也是面向開(kāi)發(fā)者和企業(yè)伙伴的軟硬一體AI大生產(chǎn)平臺(tái),截至目前已開(kāi)放了254項(xiàng)技術(shù)能力,超過(guò)190w的開(kāi)發(fā)者正在使用,是業(yè)內(nèi)開(kāi)放能力最全面、最領(lǐng)先、服務(wù)規(guī)模最大、開(kāi)發(fā)者首選的AI平臺(tái)。
對(duì)于百度的AI能力,很多人都只有一個(gè)模糊的印象,事實(shí)上,百度是唯一一家連續(xù)三年入選MIT科技評(píng)論的年度十大突破技術(shù)的公司,在大規(guī)模圖像分類,物體檢測(cè),人臉檢測(cè),機(jī)器閱讀理解等多個(gè)方向占據(jù)領(lǐng)先地位。

領(lǐng)先的AI再加上百度優(yōu)秀的深度學(xué)習(xí)框架和全網(wǎng)海量數(shù)據(jù)訓(xùn)練的審核模型,百度大腦AI識(shí)別的準(zhǔn)確率已經(jīng)達(dá)到98%。此外,AI識(shí)別能力還賦予內(nèi)容審核平臺(tái)超高的檢測(cè)速度,據(jù)Nathan介紹,文本審核快至200毫秒,圖像審核快至300毫秒,相比人審效率提升10倍以上。
2.超完善的審核規(guī)則標(biāo)簽
強(qiáng)大的AI識(shí)別能力是基礎(chǔ),而完善的審核規(guī)則標(biāo)簽就好像是瞄準(zhǔn)器,為AI識(shí)別違規(guī)內(nèi)容指明方向。作為國(guó)內(nèi)最大的搜索平臺(tái),各個(gè)模型多年的沉淀讓百度收獲了業(yè)界最豐富、最全面的標(biāo)簽體系,且都經(jīng)過(guò)大量的用戶使用驗(yàn)證,這是其他平臺(tái)無(wú)法比擬的優(yōu)勢(shì)。

比如內(nèi)容審核平臺(tái)各個(gè)審核維度下都有詳細(xì)且豐富的標(biāo)簽,僅色情識(shí)別就包含了20類細(xì)分標(biāo)簽,包括一般色情、卡通色情、SM、親密行為、卡通正常、兒童裸露、自然男性裸露、藝術(shù)品色情等。
這些豐富的標(biāo)簽體系給予企業(yè)用戶更加靈活的審核規(guī)則設(shè)置。企業(yè)完全可以根據(jù)不同的業(yè)務(wù)類型選擇不同的審核策略,提高準(zhǔn)確率,避免誤殺,保證機(jī)器審核的效果最大化。
由此可見(jiàn),憑借著百度大腦的內(nèi)容審核平臺(tái)和人機(jī)協(xié)同審核管理平臺(tái),企業(yè)審核團(tuán)隊(duì)的審核速度和效率將大大提高,不斷降低企業(yè)投入的成本,真正意義上實(shí)現(xiàn)內(nèi)容安全“減負(fù)”!
正如一下科技總編輯、副總裁、國(guó)信聚安CEO陳太鋒,在內(nèi)容安全線上專場(chǎng)活動(dòng)上所說(shuō)的一樣,“國(guó)信聚安與百度大腦合作之后,通過(guò)標(biāo)準(zhǔn)化、易接入的人機(jī)協(xié)同審核管理平臺(tái),提升了整體業(yè)務(wù)拓展、上線的效率和內(nèi)容專項(xiàng)審查的應(yīng)對(duì)能力,并且借助模型快速的研判和準(zhǔn)確率,使得研判耗時(shí)縮短了95%,準(zhǔn)確率提升了70%,大大降低了一線審核員的壓力。”
