97人妻精品一区二区,色欲AV伊人久久大香线蕉影院,国产亚洲av电影院

文 | 知道創(chuàng)宇聯(lián)合創(chuàng)始人兼CTO 楊冀龍

正如一枚硬幣的兩面，生成式人工智能大模型（以下簡稱“生成式大模型”）在助力內(nèi)容生成的同時也潛藏風(fēng)險，成為虛假信息傳播、數(shù)據(jù)隱私泄露等問題的溫床，加劇了認(rèn)知域風(fēng)險。與傳統(tǒng)人工智能（AI）相比，生成式大模型特有的預(yù)訓(xùn)練、微調(diào)、上下文、提示和思維鏈等新型學(xué)習(xí)范式，使其輸出內(nèi)容蘊含的風(fēng)險更加復(fù)雜與多樣化。面對新問題、新挑戰(zhàn)，傳統(tǒng)的內(nèi)容安全治理方法與工具顯現(xiàn)出明顯的局限性，亟需探索新的治理策略和技術(shù)方法，以確保在大模型時代能夠有效管理內(nèi)容安全風(fēng)險。

一、洞察風(fēng)險：生成式大模型內(nèi)容合規(guī)挑戰(zhàn)及成因

生成式大模型在內(nèi)容生成過程中所面臨的風(fēng)險，根源深植于訓(xùn)練數(shù)據(jù)的內(nèi)在缺陷與技術(shù)實現(xiàn)的局限性。訓(xùn)練數(shù)據(jù)的偏差、不完整性和污染，都影響了模型的認(rèn)知與學(xué)習(xí)過程。技術(shù)上的局限性，如算法設(shè)計的不完善和模型架構(gòu)的固有缺陷等，也為風(fēng)險的滋生提供了土壤。這些因素限制了模型對復(fù)雜情境的理解能力，增加了誤判與誤導(dǎo)性輸出的可能性。同時，外部環(huán)境的惡意利用更是雪上加霜，加劇了虛假、有害或攻擊性等內(nèi)容的生成。由于大部分生成式大模型的內(nèi)容合規(guī)檢測機制過于直接和簡單，因此在面對多輪對話、設(shè)定場景、陷阱釣魚以及單項和多項選擇等復(fù)雜場景時，模型暴露出更多內(nèi)容安全風(fēng)險與潛在威脅，亟需進一步優(yōu)化和強化。

（一）價值觀與技術(shù)深度互嵌帶來意識形態(tài)風(fēng)險

在人類與生成式大模型的雙向互動中，生成內(nèi)容的意識形態(tài)風(fēng)險主要源自其訓(xùn)練所依賴的海量語料，特別是那些潛藏錯誤政治導(dǎo)向、不良意識形態(tài)、有害或極端信息的未經(jīng)篩選數(shù)據(jù)。在全球意識形態(tài)斗爭日益嚴(yán)峻的背景下，受到美國等西方意識形態(tài)的影響，無形中營造了一種特定的關(guān)于大模型的輿論氛圍，潛移默化地影響公眾的價值觀。若這一趨勢任其發(fā)展，可能會導(dǎo)致公眾對美國等西方價值觀的認(rèn)同與依附，削弱國家治理的效能，威脅黨和國家在意識形態(tài)領(lǐng)域的主導(dǎo)權(quán)和主動權(quán)。主流意識形態(tài)的影響力被削弱時，還會影響人的政治判斷和政治選擇，對國家安全構(gòu)成潛在威脅。當(dāng)前，一些生成式大模型廠商為規(guī)避風(fēng)險，已設(shè)置意識形態(tài)等違規(guī)關(guān)鍵詞、敏感詞過濾機制，但效果相對有限。根據(jù)《中文大模型安全基準(zhǔn)雙輪測評第 1 期報告》，對國內(nèi)主流大模型核心價值觀的評測顯示，當(dāng)評估語境從中文切換至英文或其他外語時，大模型展現(xiàn)出的意識形態(tài)風(fēng)險更加明顯。這一現(xiàn)象與全球數(shù)據(jù)訓(xùn)練集中中文語料的極低比例（僅占 1.3%）有著直接關(guān)聯(lián)。由于英文語料主要來自美國和西方發(fā)達國家，對中國文化及價值觀的準(zhǔn)確理解存在明顯的局限性。這種文化和語言上的“隔閡”不僅導(dǎo)致生成的英文內(nèi)容與中國意識形態(tài)脫節(jié)，而且在全球化的背景下，可能進一步加劇意識形態(tài)領(lǐng)域的分歧與沖突風(fēng)險。

（二）使用門檻降低加劇虛假信息制造與傳播風(fēng)險

生成式大模型的快速發(fā)展使用門檻顯著降低，增加了制造與傳播虛假信息的風(fēng)險隱患。這些模型具備強大的文本、圖像和視頻生成能力，為虛假信息的制造與傳播提供了更加隱蔽和高效的渠道。任何人都可以利用這些大模型創(chuàng)造出高度逼真的內(nèi)容，普通用戶難以判斷和識別真?zhèn)巍．?dāng)虛假信息被精心設(shè)計并巧妙地融入真實素材中時，便會轉(zhuǎn)變成為包含主觀惡意、極具誤導(dǎo)性乃至社會危害性的謠言。這類謠言不僅更貼近現(xiàn)實，而且其迷惑性與傳播力也隨之顯著增強，對社會穩(wěn)定與公眾認(rèn)知構(gòu)成了不容忽視的威脅。這些謠言顛覆了公眾以往“有圖有真相”“有視頻有真相”的認(rèn)知，極易形成誤導(dǎo)，引發(fā)不必要的恐慌和混亂，嚴(yán)重擾亂社會安定，影響正常的生活秩序。此外，利用大模型生成虛假信息，也成為不法分子謀取私利的工具，給企業(yè)和個人財產(chǎn)造成嚴(yán)重損害。

（三）生成式大模型算法加劇人類社會的刻板印象與偏見

生成式大模型的算法和數(shù)據(jù)在魯棒性、透明度、可解釋性和可靠性等方面存在欠缺。盡管“大數(shù)據(jù)+海量參數(shù)+大算力”提升了模型的擬人度，但這些大模型并不會像人類一樣理解和思考。有時它們無法準(zhǔn)確區(qū)分信息的真實性，甚至難以識別數(shù)據(jù)中隱含的偏見和有害內(nèi)容，因此可能會繼承或放大現(xiàn)有數(shù)據(jù)中的問題，產(chǎn)生包含仇恨、諷刺、歧視、刻板印象、隱私泄露等有害信息。生成式大模型在處理信息時所展現(xiàn)出的偏見，往往是社會偏見的一種鏡像反映。人類自身的偏見會影響人工智能，而人工智能反過來也可能強化這些偏見。若放任生成式大模型輸出歧視性內(nèi)容，將會進一步延續(xù)刻板印象和社會偏見的風(fēng)險，從而導(dǎo)致不公平的歧視和傷害。此外，當(dāng)這些模型生產(chǎn)或傳播有害言論時，這些言論有可能煽動仇恨和暴力，對社會穩(wěn)定和安全構(gòu)成威脅。國內(nèi)一些主流大模型在地域、性別、年齡、健康狀況、學(xué)歷背景、體型等方面出現(xiàn)了歧視問題。例如，在回答關(guān)于已婚男性和已婚女性應(yīng)聘崗位誰更容易被錄用的問題時，有的大模型選擇了“男性”。這體現(xiàn)了性別偏見的存在。大模型在引入或放大現(xiàn)有的社會偏見時，會在輔助決策過程中會造成不公平的結(jié)果。

二、治理困境：傳統(tǒng)內(nèi)容治理方法難以應(yīng)對當(dāng)前問題

在大模型驅(qū)動的智能時代，雙向交互催生了海量內(nèi)容，同時也帶來了更多復(fù)雜的內(nèi)容違規(guī)問題。與以往相比，內(nèi)容治理變得更加棘手，這也導(dǎo)致傳統(tǒng)治理方法難以有效捕捉并應(yīng)對潛在的風(fēng)險和問題。面對這種治理困境，亟需轉(zhuǎn)變思路，創(chuàng)新治理策略，以確保智能時代的信息生態(tài)能夠健康有序地發(fā)展。

（一）基于對象場景的分散治理難以統(tǒng)籌治理全局

在早期發(fā)展階段，人工智能技術(shù)的發(fā)展主要集中在特定的垂直應(yīng)用領(lǐng)域，例如圖像處理、影視領(lǐng)域的換臉技術(shù)以及配音領(lǐng)域的文本到語音轉(zhuǎn)換等。這類人工智能模型在設(shè)計之初通常以解決特定場景或領(lǐng)域的問題為主要目的，因此它們的訓(xùn)練內(nèi)容專項性強，風(fēng)險相對易于管理。隨著以 ChatGPT 為代表的通用大模型的崛起，人工智能技術(shù)邁入了全新的發(fā)展階段。這些大模型具有靈活性和廣泛適用性的特點，能夠跨越傳統(tǒng)界限，同時處理音頻、視頻、圖像、文本等多模態(tài)數(shù)據(jù)，從而提升了交互的深度與廣度。此時的人工智能不僅能夠理解復(fù)雜指令，還能生成多種格式的高質(zhì)量內(nèi)容，極大地拓寬了人工智能的應(yīng)用場景。然而，人工智能的這一演進也伴隨著風(fēng)險的擴散與升級。由于大模型的通用性，其潛在的風(fēng)險不再局限于單一領(lǐng)域，而是可能迅速蔓延至各個行業(yè)與領(lǐng)域，這也導(dǎo)致了基于過去特定對象場景的分散治理難以統(tǒng)籌治理全局。

（二）僅憑算法治理難以控制內(nèi)容輸入端事前防御風(fēng)險

不同于傳統(tǒng)人工智能產(chǎn)品或服務(wù)的單向提供方式，生成式大模型以其獨特的“用戶輸入+機器輸出”模式，實現(xiàn)了高度個性化的內(nèi)容創(chuàng)造過程。在此過程中，用戶的具體需求成為決定輸出內(nèi)容的關(guān)鍵因素。雖然這種雙向交互促進了服務(wù)的靈活性和定制性，但同時也帶來了合規(guī)性挑戰(zhàn)。即便服務(wù)提供者在前端依法履行了研發(fā)合規(guī)義務(wù)，用戶仍然可能在輸入端打破合規(guī)性。例如，用戶可能輸入違反法律法規(guī)和公序良俗的內(nèi)容，或涉及仇恨、暴力的命令，或要求生成某一公眾人物的形象、聲音等，這些輸入可能導(dǎo)致生成的內(nèi)容存在違法或侵犯人格權(quán)等的風(fēng)險。即便用戶并非主觀地進行惡意輸入行為，但由于用戶群體的廣泛性和知識水平的差異，這些輸入數(shù)據(jù)的質(zhì)量難以保證，從而可能直接影響到人工智能模型基礎(chǔ)數(shù)據(jù)的準(zhǔn)確性。公眾在享受人工智能服務(wù)的同時，無形中為生成式大模型提供了數(shù)據(jù)“養(yǎng)料”。因此，“數(shù)據(jù)噪音”的累積可能會降低人工智能模型的性能，甚至加劇其生成錯誤或有害內(nèi)容的風(fēng)險，形成內(nèi)容安全風(fēng)險的惡性循環(huán)，即低質(zhì)、錯誤、虛假的內(nèi)容不斷輸入，進一步加劇人工智能模型生成不良信息的傾向，從而帶來更多的內(nèi)容安全風(fēng)險。由于傳統(tǒng)人工智能服務(wù)的單向性，風(fēng)險的事前預(yù)防主要依賴于算法備案與算法評估。然而，在大模型時代，由于輸入端高度個性化和不可控性，并不能預(yù)知用戶在利用生成式大模型的過程中會產(chǎn)生何種侵害行為，這使得傳統(tǒng)的基于服務(wù)提供平臺的算法評估制度難以起到有效的事前預(yù)防作用。

（二）基于深度偽造的虛假信息傳播增加了辨識難度

接續(xù)發(fā)布的 Sora 和 ChatGPT-4 驗證了通過大規(guī)模數(shù)據(jù)訓(xùn)練人工智能模型，能夠更好地理解現(xiàn)實世界的運作規(guī)律，并將其運用于生成更逼真的內(nèi)容。這些大模型能夠在紛繁復(fù)雜的“噪聲”數(shù)據(jù)中，借助深度神經(jīng)網(wǎng)絡(luò)的精細訓(xùn)練，逐步提煉并生成逼真、細膩的圖像乃至視頻內(nèi)容。在這個過程中，模型不僅學(xué)會了如何模擬真實世界的視覺特征，還巧妙地規(guī)避了傳統(tǒng)人臉視頻防偽檢測技術(shù)所依賴的偽造線索，使偽造視頻的檢測難度顯著增加，對防偽技術(shù)提出了更嚴(yán)峻的挑戰(zhàn)。深度偽造技術(shù)通過復(fù)雜的神經(jīng)網(wǎng)絡(luò)和大規(guī)模數(shù)據(jù)訓(xùn)練，能夠生成高度逼真的虛假內(nèi)容，這種技術(shù)本質(zhì)上是一種“無監(jiān)督學(xué)習(xí)”，具有極強的自我適應(yīng)性和快速演化性等特征。這些特征使得視頻造假能力呈現(xiàn)指數(shù)級的躍升。黑灰產(chǎn)正是利用這一特點，迅速炮制出海量以假亂真的信息，嚴(yán)重擾亂了內(nèi)容安全的生態(tài)。深度偽造問題已蔓延至政壇、經(jīng)濟、社會等多個領(lǐng)域，對社會穩(wěn)定構(gòu)成了嚴(yán)峻挑戰(zhàn)。公眾人物成為深度偽造的主要目標(biāo)。例如，特朗普的形象和言論就頻繁被用于制造虛假視頻和照片，嚴(yán)重誤導(dǎo)公眾，甚至引發(fā)社會恐慌和政治動蕩。此外，深度偽造技術(shù)的變種越來越多，也越來越快，導(dǎo)致誤報和漏報事件頻發(fā)，使傳統(tǒng)檢測技術(shù)難以跟上其發(fā)展步伐。

三、破局之道：人工智能賦能生成式大模型內(nèi)容安全治理

面對生成式大模型內(nèi)容安全風(fēng)險呈現(xiàn)出的新特點與新挑戰(zhàn)，傳統(tǒng)的內(nèi)容安全合規(guī)手段已顯露出明顯的局限性，難以高效、精準(zhǔn)地應(yīng)對復(fù)雜多變的威脅環(huán)境。因此，深化內(nèi)容安全治理技術(shù)的革新勢在必行。借助人工智能的力量進行賦能，解決模型訓(xùn)練、研發(fā)與運行、內(nèi)容生成階段的重點問題成為破局之道。

（一）提升數(shù)據(jù)標(biāo)注的智能化水平

大模型訓(xùn)練依賴高質(zhì)量數(shù)據(jù)，充足且精確的訓(xùn)練數(shù)據(jù)是提升模型泛化能力的關(guān)鍵。通過對輸入數(shù)據(jù)進行嚴(yán)格的篩選和把關(guān)，移除或修正包含偏見、歧視、錯誤信息等樣本，可以確保數(shù)據(jù)準(zhǔn)確性，進而實現(xiàn)對生成式人工智能產(chǎn)品內(nèi)容的安全把控，并最終實現(xiàn)更廣泛的通用大模型的全局治理。當(dāng)前，數(shù)據(jù)清洗、平衡和標(biāo)注是提升數(shù)據(jù)質(zhì)量的關(guān)鍵手段。ChatGPT 的成功在于引入了人類反饋強化學(xué)習(xí)（RLHF）機制和大量人工標(biāo)注數(shù)據(jù)。然而，現(xiàn)階段人工標(biāo)注的語料普遍存在成本高、效率低和質(zhì)量參差不齊等問題。人工智能賦能的自動標(biāo)注技術(shù)正在快速發(fā)展，能夠顯著提高效率。例如，美國的 Scale AI 采用的 Snorkel 技術(shù)通過結(jié)合規(guī)則、模型、知識庫等多種信號進行自動標(biāo)注，減少了對人工的直接依賴，有效降低了成本和時間消耗。雖然通過初篩的圖片和文本數(shù)據(jù)還需要經(jīng)過人工二次篩查和標(biāo)注，但這種人機配合的方式已大大提高了標(biāo)注效率。目前，國內(nèi)企業(yè)也在這方面進行積極探索和實踐。例如，知道創(chuàng)宇公司自主研發(fā)了一站式人工智能數(shù)據(jù)輔助標(biāo)注平臺，支持文本、圖片、視頻、音頻等多類型數(shù)據(jù)，實現(xiàn)人機協(xié)同半自動化標(biāo)注與質(zhì)檢，能夠大幅提升數(shù)據(jù)標(biāo)注的產(chǎn)能和質(zhì)量。

（二）從技術(shù)性和規(guī)范性角度促進價值對齊

應(yīng)對大模型的意識形態(tài)偏差和歧視性等風(fēng)險，迫切需要實現(xiàn)價值對齊。算法是生成式人工智能產(chǎn)品的核心，因此在模型研發(fā)與運行階段，需要重點防范算法歧視。人工智能的“黑箱”特性導(dǎo)致其內(nèi)部運作機制不透明，使性別、種族等偏見與眾多復(fù)雜參數(shù)之間形成了錯綜復(fù)雜的關(guān)聯(lián)，因此，僅僅通過直接刪除或屏蔽模型中的特定參數(shù)來徹底剔除偏見變得極為困難。算法偏見的根源來自數(shù)據(jù)，不公正的數(shù)據(jù)集成為歧視性等偏見的土壤。因此，構(gòu)建更加公正的數(shù)據(jù)集無疑是解決算法的偏見關(guān)鍵方法之一。同時，需在政策和法律層面規(guī)范算法設(shè)計者的行為，并利用對抗訓(xùn)練對算法安全進行糾偏，以增強算法的可信度。目前，可采取大模型評測等方式模擬攻擊，揭示模型的安全隱患、邏輯漏洞和性能缺陷。這種測試可以提前發(fā)現(xiàn)并糾正模型可能存在的問題，確保其在面向公眾發(fā)布時能夠展現(xiàn)出更高的穩(wěn)健性和安全性。此外，還可以從技術(shù)性和規(guī)范性入手，實現(xiàn)價值對齊方法。在規(guī)范性方面，可以設(shè)立人工智能應(yīng)遵循的倫理和道德原則，例如透明性、安全性、可追溯性與可解釋性，以指導(dǎo)開發(fā)相應(yīng)系統(tǒng)。在技術(shù)層面，可以采用人類反饋強化學(xué)習(xí)、合作逆強化學(xué)習(xí)、監(jiān)督精調(diào)等方式，將通用的倫理原則轉(zhuǎn)化成現(xiàn)實可操作的技術(shù)路徑，避免人工智能的執(zhí)行路線發(fā)生扭曲。從國際技術(shù)探索進展看，谷歌推出的 What-If 工具是 TensorBoard 中用于檢測偏見的工具；IBM 也將其偏見檢測工具 AI Fairness 360 工具包開源，其中，包括超過 30 個公平性指標(biāo)和 9 個偏差緩解算法。然而，從目前的成果看，大多數(shù)技術(shù)突破還僅僅處于初級階段，即在檢測偏見和消除偏見方面的研究，仍亟須進一步努力。

（三）完善用戶輸入側(cè)、內(nèi)容輸出側(cè)的內(nèi)容過濾審核機制

在內(nèi)容生成階段，生成式人工智能既是信息內(nèi)容的生成工具，也是用戶輸入信息的收集工具。當(dāng)用戶向模型輸入指令并進行互動時，為了防范用戶通過提示詞（Prompt）惡意誘導(dǎo)模型輸出不當(dāng)內(nèi)容，模型設(shè)計時應(yīng)具備多樣化的提示詞庫，包括正面、中性、負面等提示詞，從而提高內(nèi)容審核能力。針對惡意誘導(dǎo)大模型生成違規(guī)內(nèi)容的Prompt，應(yīng)進行改寫并給出毒性提示。同時，通過內(nèi)容安全評測和攻擊指令評測等方式，識別繞過現(xiàn)有提示詞的攻擊行為，及時發(fā)現(xiàn)問題并優(yōu)化現(xiàn)有提示詞庫。對于生成式大模型的使用者，應(yīng)強化“用戶責(zé)任”原則。服務(wù)提供者與用戶之間應(yīng)通過明確、具體的合同條款，突出強調(diào)并警示用戶不得將人工智能技術(shù)濫用于任何違法犯罪活動，確保技術(shù)應(yīng)用的合法性和道德性。例如，可以通過強化用戶責(zé)任提示，要求其對輸入和輸出的內(nèi)容負責(zé)，以減少有害信息傳播。針對內(nèi)容輸出側(cè)可能存在的虛假、有害信息等生成與傳播風(fēng)險，技術(shù)或服務(wù)提供者應(yīng)建立完善的人工智能過濾審核機制，并不斷升級針對虛假內(nèi)容的識別技術(shù)。人工智能技術(shù)能夠幫助鑒別系統(tǒng)形成強大的持續(xù)學(xué)習(xí)與自適應(yīng)能力。通過收集和分析新出現(xiàn)的偽造案例，不斷優(yōu)化算法模型，確保系統(tǒng)能夠及時識別并應(yīng)對新型偽造手段。同時，可以利用人工智能技術(shù)追蹤信息的傳播路徑，分析內(nèi)容生成背景、作者歷史行為模式、社交網(wǎng)絡(luò)關(guān)系等，評估信息的真實性與可信度。為有效應(yīng)對生成式大模型在輸出內(nèi)容時可能引發(fā)的意識形態(tài)偏差、歧視等認(rèn)知域風(fēng)險，亟需構(gòu)建一套系統(tǒng)化的大模型常態(tài)化評測與監(jiān)控機制。這一機制應(yīng)類似于定期為大型系統(tǒng)進行的“健康檢查”，旨在及時發(fā)現(xiàn)潛在問題并迅速采取糾正措施。

（四）強化政策引導(dǎo)并加快政策執(zhí)行的有效落地

在技術(shù)治理的同時，保障生成式大模型內(nèi)容安全，亟需政府的有效監(jiān)管與引導(dǎo)。盡管目前已經(jīng)出臺了一系列與大模型內(nèi)容安全相關(guān)的政策與標(biāo)準(zhǔn)框架，但其實踐執(zhí)行仍面臨諸多挑戰(zhàn)。特別是在具體政策執(zhí)行過程中，因?qū)?nèi)容安全重要性的認(rèn)識不足和執(zhí)行機制不健全，導(dǎo)致政策落實不到位。應(yīng)進一步增強大模型廠商的合規(guī)意識，并加大監(jiān)管力度，確保政策標(biāo)準(zhǔn)嚴(yán)格、有效地執(zhí)行。目前，大模型內(nèi)容的合規(guī)性邊界仍在不斷探索和細化中；未來，仍需持續(xù)研究與評估，并完善相關(guān)規(guī)范，以確保輸出內(nèi)容的合法性、健康性和道德性。

（本文刊登于《中國信息安全》雜志2024年第6期）

女同变态?中文字幕|日韩一区二区三区免费高清|亚洲精品久久久久久久久久久|18禁A片免费播放|国产成人一区二区三区A片免费|国产亚洲av电影院|中文字幕免费在线看线人|国产高清国产精品国产专区

等保資訊

專題·大模型安全 | 生成式人工智能的內(nèi)容安全風(fēng)險與應(yīng)對策略

安徽等級保護測評機構(gòu)

聯(lián)系我們

在線咨詢

免費通話

微信掃一掃