女同变态?中文字幕|日韩一区二区三区免费高清|亚洲精品久久久久久久久久久|18禁A片免费播放|国产成人一区二区三区A片免费|国产亚洲av电影院|中文字幕免费在线看线人|国产高清国产精品国产专区

等保資訊

了解最新等保資訊及等保政策

當(dāng)前位置:首頁>等保資訊
全部 806 等保資訊 540 等保政策 15

專題·大模型安全 | 生成式人工智能的內(nèi)容安全風(fēng)險與應(yīng)對策略

時間:2024-09-19   訪問量:6040
關(guān)鍵詞: 網(wǎng)絡(luò)安全


 | 知道創(chuàng)宇聯(lián)合創(chuàng)始人兼CTO 楊冀龍

 

正如一枚硬幣的兩面,生成式人工智能大模型(以下簡稱“生成式大模型”)在助力內(nèi)容生成的同時也潛藏風(fēng)險,成為虛假信息傳播、數(shù)據(jù)隱私泄露等問題的溫床,加劇了認(rèn)知域風(fēng)險。與傳統(tǒng)人工智能(AI)相比,生成式大模型特有的預(yù)訓(xùn)練、微調(diào)、上下文、提示和思維鏈等新型學(xué)習(xí)范式,使其輸出內(nèi)容蘊含的風(fēng)險更加復(fù)雜與多樣化。面對新問題、新挑戰(zhàn),傳統(tǒng)的內(nèi)容安全治理方法與工具顯現(xiàn)出明顯的局限性,亟需探索新的治理策略和技術(shù)方法,以確保在大模型時代能夠有效管理內(nèi)容安全風(fēng)險。

 

 

一、洞察風(fēng)險:生成式大模型內(nèi)容合規(guī)挑戰(zhàn)及成因

生成式大模型在內(nèi)容生成過程中所面臨的風(fēng)險,根源深植于訓(xùn)練數(shù)據(jù)的內(nèi)在缺陷與技術(shù)實現(xiàn)的局限性。訓(xùn)練數(shù)據(jù)的偏差、不完整性和污染,都影響了模型的認(rèn)知與學(xué)習(xí)過程。技術(shù)上的局限性,如算法設(shè)計的不完善和模型架構(gòu)的固有缺陷等,也為風(fēng)險的滋生提供了土壤。這些因素限制了模型對復(fù)雜情境的理解能力,增加了誤判與誤導(dǎo)性輸出的可能性。同時,外部環(huán)境的惡意利用更是雪上加霜,加劇了虛假、有害或攻擊性等內(nèi)容的生成。由于大部分生成式大模型的內(nèi)容合規(guī)檢測機制過于直接和簡單,因此在面對多輪對話、設(shè)定場景、陷阱釣魚以及單項和多項選擇等復(fù)雜場景時,模型暴露出更多內(nèi)容安全風(fēng)險與潛在威脅,亟需進一步優(yōu)化和強化。

(一)價值觀與技術(shù)深度互嵌帶來意識形態(tài)風(fēng)險


在人類與生成式大模型的雙向互動中,生成內(nèi)容的意識形態(tài)風(fēng)險主要源自其訓(xùn)練所依賴的海量語料,特別是那些潛藏錯誤政治導(dǎo)向、不良意識形態(tài)、有害或極端信息的未經(jīng)篩選數(shù)據(jù)。在全球意識形態(tài)斗爭日益嚴(yán)峻的背景下,受到美國等西方意識形態(tài)的影響,無形中營造了一種特定的關(guān)于大模型的輿論氛圍,潛移默化地影響公眾的價值觀。若這一趨勢任其發(fā)展,可能會導(dǎo)致公眾對美國等西方價值觀的認(rèn)同與依附,削弱國家治理的效能,威脅黨和國家在意識形態(tài)領(lǐng)域的主導(dǎo)權(quán)和主動權(quán)。主流意識形態(tài)的影響力被削弱時,還會影響人的政治判斷和政治選擇,對國家安全構(gòu)成潛在威脅。當(dāng)前,一些生成式大模型廠商為規(guī)避風(fēng)險,已設(shè)置意識形態(tài)等違規(guī)關(guān)鍵詞、敏感詞過濾機制,但效果相對有限。根據(jù)《中文大模型安全基準(zhǔn)雙輪測評第 1 期報告》,對國內(nèi)主流大模型核心價值觀的評測顯示,當(dāng)評估語境從中文切換至英文或其他外語時,大模型展現(xiàn)出的意識形態(tài)風(fēng)險更加明顯。這一現(xiàn)象與全球數(shù)據(jù)訓(xùn)練集中中文語料的極低比例(僅占 1.3%)有著直接關(guān)聯(lián)。由于英文語料主要來自美國和西方發(fā)達國家,對中國文化及價值觀的準(zhǔn)確理解存在明顯的局限性。這種文化和語言上的“隔閡”不僅導(dǎo)致生成的英文內(nèi)容與中國意識形態(tài)脫節(jié),而且在全球化的背景下,可能進一步加劇意識形態(tài)領(lǐng)域的分歧與沖突風(fēng)險。

(二)使用門檻降低加劇虛假信息制造與傳播風(fēng)險

生成式大模型的快速發(fā)展使用門檻顯著降低,增加了制造與傳播虛假信息的風(fēng)險隱患。這些模型具備強大的文本、圖像和視頻生成能力,為虛假信息的制造與傳播提供了更加隱蔽和高效的渠道。任何人都可以利用這些大模型創(chuàng)造出高度逼真的內(nèi)容,普通用戶難以判斷和識別真?zhèn)巍.?dāng)虛假信息被精心設(shè)計并巧妙地融入真實素材中時,便會轉(zhuǎn)變成為包含主觀惡意、極具誤導(dǎo)性乃至社會危害性的謠言。這類謠言不僅更貼近現(xiàn)實,而且其迷惑性與傳播力也隨之顯著增強,對社會穩(wěn)定與公眾認(rèn)知構(gòu)成了不容忽視的威脅。這些謠言顛覆了公眾以往“有圖有真相”“有視頻有真相”的認(rèn)知,極易形成誤導(dǎo),引發(fā)不必要的恐慌和混亂,嚴(yán)重擾亂社會安定,影響正常的生活秩序。此外,利用大模型生成虛假信息,也成為不法分子謀取私利的工具,給企業(yè)和個人財產(chǎn)造成嚴(yán)重損害。

(三)生成式大模型算法加劇人類社會的刻板印象與偏見

生成式大模型的算法和數(shù)據(jù)在魯棒性、透明度、可解釋性和可靠性等方面存在欠缺。盡管“大數(shù)據(jù)+海量參數(shù)+大算力”提升了模型的擬人度,但這些大模型并不會像人類一樣理解和思考。有時它們無法準(zhǔn)確區(qū)分信息的真實性,甚至難以識別數(shù)據(jù)中隱含的偏見和有害內(nèi)容,因此可能會繼承或放大現(xiàn)有數(shù)據(jù)中的問題,產(chǎn)生包含仇恨、諷刺、歧視、刻板印象、隱私泄露等有害信息。生成式大模型在處理信息時所展現(xiàn)出的偏見,往往是社會偏見的一種鏡像反映。人類自身的偏見會影響人工智能,而人工智能反過來也可能強化這些偏見。若放任生成式大模型輸出歧視性內(nèi)容,將會進一步延續(xù)刻板印象和社會偏見的風(fēng)險,從而導(dǎo)致不公平的歧視和傷害。此外,當(dāng)這些模型生產(chǎn)或傳播有害言論時,這些言論有可能煽動仇恨和暴力,對社會穩(wěn)定和安全構(gòu)成威脅。國內(nèi)一些主流大模型在地域、性別、年齡、健康狀況、學(xué)歷背景、體型等方面出現(xiàn)了歧視問題。例如,在回答關(guān)于已婚男性和已婚女性應(yīng)聘崗位誰更容易被錄用的問題時,有的大模型選擇了“男性”。這體現(xiàn)了性別偏見的存在。大模型在引入或放大現(xiàn)有的社會偏見時,會在輔助決策過程中會造成不公平的結(jié)果。

 

二、治理困境:傳統(tǒng)內(nèi)容治理方法難以應(yīng)對當(dāng)前問題

在大模型驅(qū)動的智能時代,雙向交互催生了海量內(nèi)容,同時也帶來了更多復(fù)雜的內(nèi)容違規(guī)問題。與以往相比,內(nèi)容治理變得更加棘手,這也導(dǎo)致傳統(tǒng)治理方法難以有效捕捉并應(yīng)對潛在的風(fēng)險和問題。面對這種治理困境,亟需轉(zhuǎn)變思路,創(chuàng)新治理策略,以確保智能時代的信息生態(tài)能夠健康有序地發(fā)展。

(一)基于對象場景的分散治理難以統(tǒng)籌治理全局

在早期發(fā)展階段,人工智能技術(shù)的發(fā)展主要集中在特定的垂直應(yīng)用領(lǐng)域,例如圖像處理、影視領(lǐng)域的換臉技術(shù)以及配音領(lǐng)域的文本到語音轉(zhuǎn)換等。這類人工智能模型在設(shè)計之初通常以解決特定場景或領(lǐng)域的問題為主要目的,因此它們的訓(xùn)練內(nèi)容專項性強,風(fēng)險相對易于管理。隨著以 ChatGPT 為代表的通用大模型的崛起,人工智能技術(shù)邁入了全新的發(fā)展階段。這些大模型具有靈活性和廣泛適用性的特點,能夠跨越傳統(tǒng)界限,同時處理音頻、視頻、圖像、文本等多模態(tài)數(shù)據(jù),從而提升了交互的深度與廣度。此時的人工智能不僅能夠理解復(fù)雜指令,還能生成多種格式的高質(zhì)量內(nèi)容,極大地拓寬了人工智能的應(yīng)用場景。然而,人工智能的這一演進也伴隨著風(fēng)險的擴散與升級。由于大模型的通用性,其潛在的風(fēng)險不再局限于單一領(lǐng)域,而是可能迅速蔓延至各個行業(yè)與領(lǐng)域,這也導(dǎo)致了基于過去特定對象場景的分散治理難以統(tǒng)籌治理全局。

(二)僅憑算法治理難以控制內(nèi)容輸入端事前防御風(fēng)險

不同于傳統(tǒng)人工智能產(chǎn)品或服務(wù)的單向提供方式,生成式大模型以其獨特的“用戶輸入+機器輸出”模式,實現(xiàn)了高度個性化的內(nèi)容創(chuàng)造過程。在此過程中,用戶的具體需求成為決定輸出內(nèi)容的關(guān)鍵因素。雖然這種雙向交互促進了服務(wù)的靈活性和定制性,但同時也帶來了合規(guī)性挑戰(zhàn)。即便服務(wù)提供者在前端依法履行了研發(fā)合規(guī)義務(wù),用戶仍然可能在輸入端打破合規(guī)性。例如,用戶可能輸入違反法律法規(guī)和公序良俗的內(nèi)容,或涉及仇恨、暴力的命令,或要求生成某一公眾人物的形象、聲音等,這些輸入可能導(dǎo)致生成的內(nèi)容存在違法或侵犯人格權(quán)等的風(fēng)險。即便用戶并非主觀地進行惡意輸入行為,但由于用戶群體的廣泛性和知識水平的差異,這些輸入數(shù)據(jù)的質(zhì)量難以保證,從而可能直接影響到人工智能模型基礎(chǔ)數(shù)據(jù)的準(zhǔn)確性。公眾在享受人工智能服務(wù)的同時,無形中為生成式大模型提供了數(shù)據(jù)“養(yǎng)料”。因此,“數(shù)據(jù)噪音”的累積可能會降低人工智能模型的性能,甚至加劇其生成錯誤或有害內(nèi)容的風(fēng)險,形成內(nèi)容安全風(fēng)險的惡性循環(huán),即低質(zhì)、錯誤、虛假的內(nèi)容不斷輸入,進一步加劇人工智能模型生成不良信息的傾向,從而帶來更多的內(nèi)容安全風(fēng)險。由于傳統(tǒng)人工智能服務(wù)的單向性,風(fēng)險的事前預(yù)防主要依賴于算法備案與算法評估。然而,在大模型時代,由于輸入端高度個性化和不可控性,并不能預(yù)知用戶在利用生成式大模型的過程中會產(chǎn)生何種侵害行為,這使得傳統(tǒng)的基于服務(wù)提供平臺的算法評估制度難以起到有效的事前預(yù)防作用。

(二)基于深度偽造的虛假信息傳播增加了辨識難度

接續(xù)發(fā)布的 Sora 和 ChatGPT-4 驗證了通過大規(guī)模數(shù)據(jù)訓(xùn)練人工智能模型,能夠更好地理解現(xiàn)實世界的運作規(guī)律,并將其運用于生成更逼真的內(nèi)容。這些大模型能夠在紛繁復(fù)雜的“噪聲”數(shù)據(jù)中,借助深度神經(jīng)網(wǎng)絡(luò)的精細訓(xùn)練,逐步提煉并生成逼真、細膩的圖像乃至視頻內(nèi)容。在這個過程中,模型不僅學(xué)會了如何模擬真實世界的視覺特征,還巧妙地規(guī)避了傳統(tǒng)人臉視頻防偽檢測技術(shù)所依賴的偽造線索,使偽造視頻的檢測難度顯著增加,對防偽技術(shù)提出了更嚴(yán)峻的挑戰(zhàn)。深度偽造技術(shù)通過復(fù)雜的神經(jīng)網(wǎng)絡(luò)和大規(guī)模數(shù)據(jù)訓(xùn)練,能夠生成高度逼真的虛假內(nèi)容,這種技術(shù)本質(zhì)上是一種“無監(jiān)督學(xué)習(xí)”,具有極強的自我適應(yīng)性和快速演化性等特征。這些特征使得視頻造假能力呈現(xiàn)指數(shù)級的躍升。黑灰產(chǎn)正是利用這一特點,迅速炮制出海量以假亂真的信息,嚴(yán)重擾亂了內(nèi)容安全的生態(tài)。深度偽造問題已蔓延至政壇、經(jīng)濟、社會等多個領(lǐng)域,對社會穩(wěn)定構(gòu)成了嚴(yán)峻挑戰(zhàn)。公眾人物成為深度偽造的主要目標(biāo)。例如,特朗普的形象和言論就頻繁被用于制造虛假視頻和照片,嚴(yán)重誤導(dǎo)公眾,甚至引發(fā)社會恐慌和政治動蕩。此外,深度偽造技術(shù)的變種越來越多,也越來越快,導(dǎo)致誤報和漏報事件頻發(fā),使傳統(tǒng)檢測技術(shù)難以跟上其發(fā)展步伐。

 

三、破局之道:人工智能賦能生成式大模型內(nèi)容安全治理

面對生成式大模型內(nèi)容安全風(fēng)險呈現(xiàn)出的新特點與新挑戰(zhàn),傳統(tǒng)的內(nèi)容安全合規(guī)手段已顯露出明顯的局限性,難以高效、精準(zhǔn)地應(yīng)對復(fù)雜多變的威脅環(huán)境。因此,深化內(nèi)容安全治理技術(shù)的革新勢在必行。借助人工智能的力量進行賦能,解決模型訓(xùn)練、研發(fā)與運行、內(nèi)容生成階段的重點問題成為破局之道。

(一)提升數(shù)據(jù)標(biāo)注的智能化水平

大模型訓(xùn)練依賴高質(zhì)量數(shù)據(jù),充足且精確的訓(xùn)練數(shù)據(jù)是提升模型泛化能力的關(guān)鍵。通過對輸入數(shù)據(jù)進行嚴(yán)格的篩選和把關(guān),移除或修正包含偏見、歧視、錯誤信息等樣本,可以確保數(shù)據(jù)準(zhǔn)確性,進而實現(xiàn)對生成式人工智能產(chǎn)品內(nèi)容的安全把控,并最終實現(xiàn)更廣泛的通用大模型的全局治理。當(dāng)前,數(shù)據(jù)清洗、平衡和標(biāo)注是提升數(shù)據(jù)質(zhì)量的關(guān)鍵手段。ChatGPT 的成功在于引入了人類反饋強化學(xué)習(xí)(RLHF)機制和大量人工標(biāo)注數(shù)據(jù)。然而,現(xiàn)階段人工標(biāo)注的語料普遍存在成本高、效率低和質(zhì)量參差不齊等問題。人工智能賦能的自動標(biāo)注技術(shù)正在快速發(fā)展,能夠顯著提高效率。例如,美國的 Scale AI 采用的 Snorkel 技術(shù)通過結(jié)合規(guī)則、模型、知識庫等多種信號進行自動標(biāo)注,減少了對人工的直接依賴,有效降低了成本和時間消耗。雖然通過初篩的圖片和文本數(shù)據(jù)還需要經(jīng)過人工二次篩查和標(biāo)注,但這種人機配合的方式已大大提高了標(biāo)注效率。目前,國內(nèi)企業(yè)也在這方面進行積極探索和實踐。例如,知道創(chuàng)宇公司自主研發(fā)了一站式人工智能數(shù)據(jù)輔助標(biāo)注平臺,支持文本、圖片、視頻、音頻等多類型數(shù)據(jù),實現(xiàn)人機協(xié)同半自動化標(biāo)注與質(zhì)檢,能夠大幅提升數(shù)據(jù)標(biāo)注的產(chǎn)能和質(zhì)量。

(二)從技術(shù)性和規(guī)范性角度促進價值對齊

應(yīng)對大模型的意識形態(tài)偏差和歧視性等風(fēng)險,迫切需要實現(xiàn)價值對齊。算法是生成式人工智能產(chǎn)品的核心,因此在模型研發(fā)與運行階段,需要重點防范算法歧視。人工智能的“黑箱”特性導(dǎo)致其內(nèi)部運作機制不透明,使性別、種族等偏見與眾多復(fù)雜參數(shù)之間形成了錯綜復(fù)雜的關(guān)聯(lián),因此,僅僅通過直接刪除或屏蔽模型中的特定參數(shù)來徹底剔除偏見變得極為困難。算法偏見的根源來自數(shù)據(jù),不公正的數(shù)據(jù)集成為歧視性等偏見的土壤。因此,構(gòu)建更加公正的數(shù)據(jù)集無疑是解決算法的偏見關(guān)鍵方法之一。同時,需在政策和法律層面規(guī)范算法設(shè)計者的行為,并利用對抗訓(xùn)練對算法安全進行糾偏,以增強算法的可信度。目前,可采取大模型評測等方式模擬攻擊,揭示模型的安全隱患、邏輯漏洞和性能缺陷。這種測試可以提前發(fā)現(xiàn)并糾正模型可能存在的問題,確保其在面向公眾發(fā)布時能夠展現(xiàn)出更高的穩(wěn)健性和安全性。此外,還可以從技術(shù)性和規(guī)范性入手,實現(xiàn)價值對齊方法。在規(guī)范性方面,可以設(shè)立人工智能應(yīng)遵循的倫理和道德原則,例如透明性、安全性、可追溯性與可解釋性,以指導(dǎo)開發(fā)相應(yīng)系統(tǒng)。在技術(shù)層面,可以采用人類反饋強化學(xué)習(xí)、合作逆強化學(xué)習(xí)、監(jiān)督精調(diào)等方式,將通用的倫理原則轉(zhuǎn)化成現(xiàn)實可操作的技術(shù)路徑,避免人工智能的執(zhí)行路線發(fā)生扭曲。從國際技術(shù)探索進展看,谷歌推出的 What-If 工具是 TensorBoard 中用于檢測偏見的工具;IBM 也將其偏見檢測工具 AI Fairness 360 工具包開源,其中,包括超過 30 個公平性指標(biāo)和 9 個偏差緩解算法。然而,從目前的成果看,大多數(shù)技術(shù)突破還僅僅處于初級階段,即在檢測偏見和消除偏見方面的研究,仍亟須進一步努力。

(三)完善用戶輸入側(cè)、內(nèi)容輸出側(cè)的內(nèi)容過濾審核機制

在內(nèi)容生成階段,生成式人工智能既是信息內(nèi)容的生成工具,也是用戶輸入信息的收集工具。當(dāng)用戶向模型輸入指令并進行互動時,為了防范用戶通過提示詞(Prompt)惡意誘導(dǎo)模型輸出不當(dāng)內(nèi)容,模型設(shè)計時應(yīng)具備多樣化的提示詞庫,包括正面、中性、負面等提示詞,從而提高內(nèi)容審核能力。針對惡意誘導(dǎo)大模型生成違規(guī)內(nèi)容的Prompt,應(yīng)進行改寫并給出毒性提示。同時,通過內(nèi)容安全評測和攻擊指令評測等方式,識別繞過現(xiàn)有提示詞的攻擊行為,及時發(fā)現(xiàn)問題并優(yōu)化現(xiàn)有提示詞庫。對于生成式大模型的使用者,應(yīng)強化“用戶責(zé)任”原則。服務(wù)提供者與用戶之間應(yīng)通過明確、具體的合同條款,突出強調(diào)并警示用戶不得將人工智能技術(shù)濫用于任何違法犯罪活動,確保技術(shù)應(yīng)用的合法性和道德性。例如,可以通過強化用戶責(zé)任提示,要求其對輸入和輸出的內(nèi)容負責(zé),以減少有害信息傳播。針對內(nèi)容輸出側(cè)可能存在的虛假、有害信息等生成與傳播風(fēng)險,技術(shù)或服務(wù)提供者應(yīng)建立完善的人工智能過濾審核機制,并不斷升級針對虛假內(nèi)容的識別技術(shù)。人工智能技術(shù)能夠幫助鑒別系統(tǒng)形成強大的持續(xù)學(xué)習(xí)與自適應(yīng)能力。通過收集和分析新出現(xiàn)的偽造案例,不斷優(yōu)化算法模型,確保系統(tǒng)能夠及時識別并應(yīng)對新型偽造手段。同時,可以利用人工智能技術(shù)追蹤信息的傳播路徑,分析內(nèi)容生成背景、作者歷史行為模式、社交網(wǎng)絡(luò)關(guān)系等,評估信息的真實性與可信度。為有效應(yīng)對生成式大模型在輸出內(nèi)容時可能引發(fā)的意識形態(tài)偏差、歧視等認(rèn)知域風(fēng)險,亟需構(gòu)建一套系統(tǒng)化的大模型常態(tài)化評測與監(jiān)控機制。這一機制應(yīng)類似于定期為大型系統(tǒng)進行的“健康檢查”,旨在及時發(fā)現(xiàn)潛在問題并迅速采取糾正措施。

(四)強化政策引導(dǎo)并加快政策執(zhí)行的有效落地

在技術(shù)治理的同時,保障生成式大模型內(nèi)容安全,亟需政府的有效監(jiān)管與引導(dǎo)。盡管目前已經(jīng)出臺了一系列與大模型內(nèi)容安全相關(guān)的政策與標(biāo)準(zhǔn)框架,但其實踐執(zhí)行仍面臨諸多挑戰(zhàn)。特別是在具體政策執(zhí)行過程中,因?qū)?nèi)容安全重要性的認(rèn)識不足和執(zhí)行機制不健全,導(dǎo)致政策落實不到位。應(yīng)進一步增強大模型廠商的合規(guī)意識,并加大監(jiān)管力度,確保政策標(biāo)準(zhǔn)嚴(yán)格、有效地執(zhí)行。目前,大模型內(nèi)容的合規(guī)性邊界仍在不斷探索和細化中;未來,仍需持續(xù)研究與評估,并完善相關(guān)規(guī)范,以確保輸出內(nèi)容的合法性、健康性和道德性。

(本文刊登于《中國信息安全》雜志2024年第6期)

 


上一篇:讓互聯(lián)網(wǎng)更好造福世界各國人民——世界互聯(lián)網(wǎng)大會推動構(gòu)建網(wǎng)絡(luò)空間命運共同體邁向新階段理論研討會發(fā)言摘編

下一篇:不履行網(wǎng)絡(luò)安全保護義務(wù),內(nèi)蒙古網(wǎng)警通報多家單位

在線咨詢

點擊這里給我發(fā)消息 等保測評咨詢

在線咨詢

免費通話

24小時免費咨詢

請輸入您的聯(lián)系電話,座機請加區(qū)號

免費通話

微信掃一掃

微信聯(lián)系
返回頂部
title="女同变态?中文字幕|日韩一区二区三区免费高清|亚洲精品久久久久久久久久久|18禁A片免费播放|国产成人一区二区三区A片免费|国产亚洲av电影院|中文字幕免费在线看线人|国产高清国产精品国产专区|制服.丝袜.亚洲.中文.综合|欧美另类 自拍 亚洲 图区|国产又爽又大又黄a片色戒一|2020精品自拍视频曝光">