構建精準有效模型（通用模型的倫理與治理）

2023-07-28 10:06:36 2

本文刊載於《中國科學院院刊》2022年第9期「政策與管理研究」

滕妍1 王國豫2,3* 王迎春1

1 上海人工智慧實驗室治理研究中心

2 復旦大學哲學學院

3 復旦大學生命醫學倫理研究中心

通用模型是近年來人工智慧發展的重要方向之一。隨著模型研發應用的增多，模型的社會和倫理影響受到廣泛關注。文章從通用模型的特性出發、分析了模型在算法、數據和算力 3 個層面潛在的倫理挑戰，包括不確定性、真實性、可靠性，偏見、毒性、公平、隱私及環境問題。進一步從技術哲學的視角分析了數據驅動的模型在人與世界關係中的中介性作用及所產生的「鏡像」效應問題和透明性問題，提出了人與世界關係的新形態是以模型（數據）為中介的，即「人-模型（數據）-世界」關係。最後，從治理技術和治理機制兩方面反思了當前的應對措施及局限性。建議建立開放式、全流程、價值嵌入的倫理規約機制，保障通用模型在合規、合倫理的框架下發展。

1 人工智慧步入「通用模型時代」

模型，是現實世界中事件、系統、行為或者自然現象的抽象數學表徵。在人工智慧領域，通用模型，又稱為預訓練模型、基礎模型或大模型，是指經過大規模數據訓練，包含海量模型參數，並可適用於廣泛下遊任務的模型。自 21 世紀早期深度學習技術興起，人工智慧的研發模式主要是開發專用模型，即針對特定任務、場景，依賴大量人力的「作坊式」。然而，由於專用模型泛化能力差且嚴重依賴專用數據集，導致開發成本高。近幾年，人們開始聚焦通用模型，即通過預先訓練一個超大規模的模型，再用少量微調數據將模型遷移到具體場景中，一次性解決下遊碎片化任務。

在目前的通用模型中，自然語言處理（NLP）和計算機視覺（CV）是發展最快的兩個領域。NLP指的是建立在計算機編程基礎上的人與計算機之間的自然語言通訊，即讓人工智慧「說人話」，代表模型包括 Bert（Google）、GPT-2/3（OpenAI）、GLaM（Google）、「盤古」（華為）、「悟道」（智源、清華）等。CV 指的是利用傳感器、攝像頭、計算機等設備模仿生物視覺能力，即讓人工智慧「看世界」，代表包括 Swin Transformer（Microsoft）、CLIP（OpenAI）、「書生」（上海人工智慧實驗室）等。

從技術的角度來看，通用模型所基於的深度神經網絡和自監督學習並不新穎，其近年來的迅速發展主要歸功於不斷擴大的模型參數量、訓練數據及算力的發展。比如，OpenAI 在 2018 年發布的語言模型 GPT-1 的參數量為 1.1 億，而其在 2020 年發布的 GPT-3 模型的參數量已高達 1750 億，而 Google 的 Switch Transformer 和北京智源研究院的「悟道」2.0 的參數已經達到萬億級別。模型參數、訓練數據和算力的擴增激發了模型的潛能，提高了模型的泛化性和適用性，提升了開發效率。在通用性方面，據華為數據顯示，其「盤古」通用模型可以適配電力行業的 100 多種問題，迭代效率提升了 10 倍左右。在精度方面，Clark 等的實驗顯示，在沒有訓練的情況下，人類評價者已經很難區分測試文本是 GPT-3 生成的還是人類創作的。在數據效率方面，上海人工智慧實驗室的「書生」模型僅需 2 個訓練樣本，就能在花卉種類識別的任務上達到 99.7% 的精確度。

通用性能和模型質量的提升降低了人工智慧的研發和使用門檻，促進了人工智慧的規模化落地，未來可能帶來從技術、規則、制度到產業的整個人工智慧領域的範式轉變。據 GPT-3 官網顯示，截至 2022 年 2 月，已經有超過 320 個 APP 採用了 GPT-3模型，其中包括人們熟知的 WhatsApp、Duolingo、Excel 等產品。人工智慧已然步入「通用模型」時代。

2 通用模型的特性及倫理挑戰

通用模型的特性

核心特性

通用模型的核心特性可以歸納為湧現性（emergence）和同質性（homogenization）。

湧現性

湧現是複雜系統的特徵，通常指的是「在複雜系統的自組織過程中，出現新穎而連貫的結構、模式和屬性」。湧現具有 2 個明顯特性：

1. 單體之間相互作用產生的協同效應，這使群體作為一個整體可以產生個體簡單相加無法達到的效果。

2. 在臨界狀態下質的改變，這種質變的例子包括自然界中的雪崩、冰化成水，又或者經濟領域的股市價格波動等。

在通用模型的語境下，湧現性指的是模型的功能不是具體建構的，而是在模型的大規模訓練過程中自主湧現出來的。通用模型的功能湧現性根植於機器學習的特性。機器學習領域的先鋒——Samuel指出，機器學習算法的本質是讓計算機自動學習訓練數據的內在規律，並用這些規律對未知數據進行預測，這種基於訓練數據產生模型的算法具有湧現性的特徵。通用模型在大規模算力和數據的加持下，不僅可以自動指定任務的執行方式、提取數據的內在特徵，還可以湧現出一些預料之外的功能。Steinhardt將通用模型的湧現性進一步解釋為由於參數數量增加而引起的行為上的質變，這種質變可以引起系統的快速改變，在產生新功能的同時也可能產生新的風險。

同質性

同質性，與異質性（heterogenization）相反，指的是構成物體或人的單元在質量、結構、狀態等特徵上的單一或相似性。在通用模型語境下，同質性指的是模型構建方法的相似性。主要表現在 2 個方面：

1.橫向的同質化，指的是類似的網絡架構（如 Transformer）已經被廣泛用於諸多領域的模型開發中。如文本、圖片、視頻、蛋白質結構預測等，使得模型的能力可以惠及諸多領域。

2.縱向的同質化，指的是類似或同一模型被廣泛用於解決下遊任務。通用模型領域模型建構的同質化主要源於模型強泛化性所帶來的開發、優化、應用等方面效率的提升。此外，通用模型作為一種中間模型，其問題也會被下遊模型所繼承，帶來「一榮俱榮，一損俱損」的效果。

衍生特性

通用模型還有兩個衍生特性：大規模數據訓練和任務泛化。

1. 大規模數據訓練不僅是模型功能湧現性的重要前提，也對提高模型整體適用性、準確度和效率發揮了積極作用。

2. 通用模型任務泛化的特性，指的是模型可以作為具有「通才」能力的中間模型，被使用者遷移處理各種不同的、甚至未知的任務，而類似網絡架構在多種模態模型（文字、圖片、視頻等）中的運用更是拓寬了模型的下遊應用領域。在這個意義上，通用模型可以被看作是一種促能技術（enabling technology）。

通用模型的倫理挑戰

通用模型的上述特性推進了人工智慧技術的發展和規模化落地，但也帶來一系列倫理挑戰，包括湧現性伴隨的功能不確定、魯棒性欠缺所導致的可靠性問題與認知風險；大規模數據訓練面臨的隱私安全、偏見、毒性、公平性問題；同質性和任務泛化對上述問題在橫向和縱向上的放大和加深；使用海量算力對能源的消耗和環境的影響。總的來說，通用模型面臨的倫理挑戰主要表現在 3 個層面。

算法層面：不確定性與真實性、可靠性問題

從認識論角度看，通用模型的湧現性直接呈現出的是魯棒性欠缺，導致算法的不確定性和不可解釋性，其結果也影響到算法的真實性和可靠性，而同質性則放大了這些問題在橫向和縱向上的影響。

Hendrycks 等將機器學習的魯棒性解釋為系統面對黑天鵝事件和對抗性威脅時表現出的能力。以交通燈為例，遵守信號燈行駛在絕大多數場景下是安全的，但是也有極少數特殊情況。比如，當十字路口橫向來車闖紅燈時，縱向行駛的車輛如若還按綠燈行駛就會造成車禍。考慮到通用模型的通用性質，現階段大部分模型在制定安全性指標時會將一套複雜的人工智慧安全性原則匯總到一個概括性的綜合指標中，而不對其進行更細粒度的區分；但在具體應用場景中，往往需要考慮更細粒度的安全問題，如信號燈故障及其他突發、極端情況。

不同於黑天鵝事件，對抗性威脅通常是針對算法或模型漏洞和弱點的故意性攻擊，操作方式通常是刻意在樣本中加入人類無法察覺的幹擾。2015 年，谷歌的研究人員發現，對抗樣本可以輕易地欺騙GoogLeNet 模型。研究人員製作了兩張熊貓圖片，並在其中一幅的像素層面加入細微幹擾作為對抗樣本，對人類肉眼來說，這兩張圖幾乎是一模一樣，而機器學習模型卻以高置信度將對抗樣本誤讀為長臂猿。類似的情況還有，OpenAI 的研究人員發現其實驗室最新的通用視覺模型可以輕易被欺騙。例如，如果在一顆青蘋果上貼上「ipod」標籤，那該模型有 99.7% 的概率將圖中物體識別成 ipod，而不是青蘋果。

產生對抗威脅的直接原因是模型與人類處理信息方式的不同，人類是基於各種可理解的特徵來識別圖片中的內容，如熊貓的黑眼圈、黑耳朵等。而模型的識別方法是基於對大規模數據樣本的擬合學習，得出一個可以將所有圖片與標籤相關聯的參數框架，然後再將這種關聯泛化到其他任務中。但是這種關聯本質上源於模型的湧現性，具有不確定性，有時是不可靠的。而由於通用模型作為「中介」和「促能」技術的重要意義，在下遊的應用中起到了「母體」的作用，模型的細小誤差可能對下遊大規模應用帶來影響。

究其根本，產生對抗性威脅的深層原因是模型無法從事實上區分信息的真實性，從而產生虛假的、誤導性的或低質量的結果。並且，深度神經網絡架構可能使每次推理結果都不同且可解釋性低，這不僅對了解模型能做什麼、為什麼這麼做及如何做帶來困難，更是為模型的審核與合規帶來了一系列挑戰。「大數據海量參數大算力」提升了模型的總體表現，但是似乎並沒有讓模型做到像人一樣的理解。這在類似下棋等娛樂場景並不會對人類生活產生負面影響。但是，對於諸如醫療診斷、刑偵司法、自動駕駛等重要領域，模型功能的湧現性、應用的同質化和可解釋問題可能帶來潛在風險。

數據層面：隱私安全、偏見、毒性與公平性問題

現階段，通用模型在數據層面的主要倫理風險分 2 類：

1. 訓練樣本中含有的偏見和毒性（toxicity）問題；

2. 數據所涉及的隱私安全問題。

通用模型訓練所用的數據量大且多為無標註數據，樣本中易存在偏見和毒性問題，可能對個體或群體帶來歧視和不公，且通用模型的同質化特徵可能會放大或深化這些問題。

偏見可以理解為一種態度或行為上的傾向，在現實生活中常表現為對特定人群的區別對待，可能造成直接或間接的歧視和不公。美國國家標準與技術研究院將人工智慧偏見分為 3 類：

1. 系統偏見，指由歷史、社會造成的對某些群體的偏袒或貶低；

2. 統計偏見，指由於樣本的代表性缺陷而導致的統計上的偏差；

3. 人類偏見，指人類決策者思維的系統性錯誤，這種偏見通常是隱式的、與過往經驗相聯繫。

毒性或有害言論與偏見類似，但特指粗魯、不尊重或不合理的言論，如侮辱、仇恨、髒話、人身攻擊、性騷擾等。從來源上說，偏見和有害語言都是複雜的歷史產物，在人類社會中難以徹底消除；但如不加以注意，人工智慧就可能會拓寬、深化、合併甚至標準化這些問題，或者帶來新的問題。在通用模型的語境下，語料庫和模型輸出的毒性、偏見程度存在明顯相關性。當樣本中某些群體被缺乏、不實或過度代表時，模型結果就可能使部分人群——特別是邊緣群體遭受不公正的對待，繼承或加深社會刻板印象。例如，OpenAI 在用 ZS CLIP 模型鑑別 10000 張 FairFace 資料庫的圖片時，結果顯示，通用模型對不同人群（如種族、性別、年齡等）的識別是不同的，如更容易將男性和 20 歲以下人群視為罪犯，更容易將女性識別為保姆。

隱私安全也是通用模型在數據層面的主要倫理挑戰之一，包括數據洩露、功能僭變（functioncreep）、偽造、詐騙等具體問題。

隱私是數位化世界的主要倫理問題之一。通用模型研發和應用涉及的隱私風險主要來源於原始訓練數據中包含的個人信息和模型強大的推理能力。通用模型訓練多採用網絡公開數據（如網頁、論壇、論文、電子書等），其中可能包含姓名、家庭住址、電話號碼等個人信息，甚至包含生物識別、宗教、醫療、行蹤軌跡等敏感信息，這些信息的洩露不僅違法，且直接侵害到個人的尊嚴、人身和財產安全。通用模型的「一損俱損」效應也意味著，如果模型非法或不當使用了隱私數據，下遊所有應用都會承擔這種隱私風險。惡意使用者還可能將洩露信息進一步用於偽造、身份冒用、詐騙等不法目的，造成功能僭變（即洩露或超出原目的使用）。如近幾年興起的深度偽造技術，據 Sensity 的調查顯示，在公開發布的深偽作品中，96% 都是虛假成人內容，即將網絡圖片合成到情色視頻或圖片上，而受害者絕大多數都是女性。

算力層面：可持續發展與全球正義

在全球「雙碳」背景下，模型在算力層面所產生的能源和環境影響尤為值得重視。為應對氣候危機，2015 年，178 個締約方籤署了《巴黎協定》，將控制氣溫上升作為長期目標，我國也於 2020 年明確了「雙碳」目標。近年來，「軍備競賽式」的通用模型研發所造成的環境問題已經備受矚目。Strubell 等梳理了幾種常用的深度學習語言模型在訓練環節的碳足跡和計算花費。結果顯示，訓練這些模型產生的二氧化碳當量（CO2e）從 0.012—284 噸不等。如在不做超參數調整的情況下，訓練一個基於 Bert 的模型所造成的碳排放大致相當於一次環美飛行所造成的排量；而訓練神經架構搜索模型所需的計算費用高達約 90 萬—300 萬美元不等。除了訓練環節，模型在應用過程中的環境問題也不容忽視。圖靈獎得主帕特森（David Patterson）等的研究顯示，多數公司在運行深度神經網絡模型時所消耗的能源和算力要多於模型訓練階段。

算力背後的能源和環境問題已經引發關於環境後果和全球正義的討論。一方面，涉及代內正義，因為享受到通用模型便利的往往是發達國家和人群，而被氣候變暖影響最嚴重的國家往往是落後的發展中國家。另一方面，能源消耗和環境汙染也關涉代際正義，即對未來子孫的影響。

3 通用模型的中介性

美國著名計算機科學家格雷（Jim Gray）指出，傳統上，科學研究的範式主要是實證的、理論的和計算式的，而隨著仿真計算和數據收集工具的發展，大量的數據被收集起來，這也促使新的科學範式——數據密集型科學的產生。

預訓練模型本質上也是數據驅動的，數據是模型知識的資料來源，模型的能力來自對大量無標註訓練數據中抽象共現模式（co-occurrence patterns）的學習。舉例來說，如果「麵包與果醬」在訓練數據中出現的概率很高，那麼在運用該模型進行文本生成的時候，如果用戶輸入「麵包與」，模型會在提示欄中顯示「果醬」等其他高頻共現詞。Bender 等將大語言模型的這種映射行為稱為「鸚鵡學舌」。這當中包含兩個問題：

1. 通用模型的「鏡像」效應在透過數據表徵世界的時候，也會將訓練數據中包含的社會問題不加分辨地體現出來。對於通用模型來說，這種能力的核心是在海量無標註數據中學習通用的特徵表示，提取出有價值的模式和規律，而不對數據內容加以鑑別，這就意味著，如果訓練數據中與某些詞彙（如「黑人」）相關聯的內容多為負面的或刻板印象，則模型輸出的結果就可能直接體現這些問題，並可能作為數字記憶將這些內容固化。

2. 由於通用模型的映射行為反映的是訓練數據的內在關聯，而不是全面豐富、動態複雜的生活世界，選擇哪些數據集、依據什麼樣的標準，以及如何界定核心概念都會對結果產生影響，導致模型結果可能存在可靠性問題。以上兩個問題反映出數據驅動的模型可能存在的問題，即通用模型作為一種「鏡像」可能無法準確反映世界，還會影響人類對世界的認識。

通用模型的這種「鏡像」可以借用伊德（Don Ihde）的技術哲學來解釋。作為一種技術中介，通用模型可以調節人類認識和解釋世界的過程。伊德在探討技術在人與世界之間關係時提出技術與人的 4 種關係。在具身關係中，人類與技術作為一個整體去經驗世界（如眼鏡），此時技術是人「身體的延伸」，即（人-技術）→世界，有助於放大某些感官意識。具身關係要求技術的知覺透明性，即人類越了解技術，人與技術融合所能產生的效用越大。在詮釋關係中，人類對世界的認識是經過技術工具表徵轉換的（如儀錶盤），即人→（技術-世界），人們認識的世界是由技術詮釋的，技術是世界的表徵。詮釋關係要求技術達到一定的發展程度，以精準反映世界。在它異關係中，強調技術的自主性，即當技術具有它者性（如人工智慧）、成為認識的客體時，透過技術展現的世界就變成了一種技術的加工物，表述為人→技術-（-世界）。在背景關係中，技術作為一種技術背景，成為日常生活的一部分（如暖氣），而人往往是在技術失效時才能意識到它的存在，即人→（技術/世界）。

在通用模型的語境下，伊德的「人-技術-世界」被「人-模型（數據）-世界」所取代。一方面，通用模型在某種程度上可以理解為數據和部分世界的「鏡像」，擁有表徵相關事物複雜邏輯關係的能力，人類透過模型來認識世界。然而，模型的「鏡像」效應也將映射出現實世界中偏見歧視等倫理問題，對公平、自由、人格尊嚴等倫理價值造成挑戰。另一方面，作為「身體的延伸」，人類又可能與模型融合在一起去經驗世界，但是融合的實際效用取決於技術的透明性，在通用模型語境下主要表現為可解釋性問題，即是否可以從人類的角度理解從輸入到輸出背後的映射邏輯。這關乎人類是否可以信任模型，包括模型是否可靠，是否能夠符合具體的法律法規和倫理規範，是否可以用於科學研究等目的，以及是否可以部署到重要的生活領域，如幫助兒童學習知識，輔助法官判案等。傳統上，判定某個人或團體的言論是否可靠的基本前提是他們知道自己在說什麼，即理解這些言論的意思和背後映射的價值規範、行為要求和社會影響。但是，深度神經網絡的可解釋性和透明性較低，更多的是基於數據和參數的規模效應給出的粗略結果。在某種程度上是用相關性代替了因果性，伴隨而來的就是上述信任的問題。

綜上，通用模型在反映世界和讓人理解兩方面還存在一些問題，作為人與世界關係的技術中介，通用模型在幫助人類處理大規模下遊任務的同時，也帶來了一系列的不確定性。通用模型的「鏡像」只是對訓練數據的鏡像，而不完全是現實世界的鏡像，且人類還無法完全理解、信任模型的預測邏輯，如若想讓模型的中介作用更加合理，人類必須在環路之中發揮更大的作用。

4 治理措施及局限性

通用模型的社會與倫理維度關乎模型未來的技術走向、規則制定、接受度等一系列問題，屬於通用模型發展的基礎問題。目前，很多企業及高校都已啟動針對通用模型社會和倫理影響的研究，並制定系列舉措對模型的研發和應用進行治理。

治理技術：上、下遊倫理調節

當前，應對通用模型倫理挑戰的技術可以粗略劃分為上遊手段和下遊手段，主要是通過對上、下遊訓練數據進行倫理調節以降低模型「鏡像」效應的潛在負面影響。

上遊手段主要對應模型的預訓練階段。最典型的舉措就是對訓練數據集進行清洗。如，DeepMind 在改進 TransformerXL 模型的表現時，刪去了被 Perspective API 注釋為有毒的內容。Perspective API 通過志願者打分的方式來量化線上評論的分數——如果 10 個評分者中有 6 個將評論標記為有毒，就將該評論的毒性標記為 0.6，代表詞條文本有 60% 的可能性被認為是有害的，該評估模型目前已被廣泛用於處理通用模型的毒性問題。由於毒性言論和偏見可能對特定人群造成直接或間接的不公且可能降低模型精度，改善這些問題對提高模型公平性、可靠性等具有明顯益處。

下遊手段主要指模型為適應具體任務而進行微調的階段。為改善模型在特定領域的表現，多數研究團隊傾向於下遊處理，即在已經完成預訓練的模型的基礎上用有指向性的小規模數據集進行微調。目前，OpenAI、Google 等都使用了下遊微調的手段來改善模型在特定社會和倫理維度上的表現，以增加模型在價值規範方面的敏感度和「理解力」，提高通用模型作為人與世界中介的倫理合理性。

治理機制：宏觀與微觀層面並行

通用模型的治理機制主要包括宏觀和微觀兩個層面。

在宏觀層面，通用模型治理要符合當前人工智慧治理的總體框架。政府、國際組織、企業等都針對人工智慧的發展制定了系列治理機制。總的來說，這些機制包括倫理原則（如我國的《新一代人工智慧治理原則——發展負責任的人工智慧》）、政策戰略（如美國的《美國人工智慧倡議》）、法律法規（如歐盟的《人工智慧法（草案）》）、標準（IEEE 的 P7000系列）等。通用模型的治理隸屬於相關主體發布的人工智慧治理框架，同時受到行業組織、技術團體、新聞媒體、公眾等多元主體的監督。

在微觀層面，有必要針對通用模型的特性制定專門性治理機制。目前通用模型的專題治理以模型研發、應用的頭部機構為主導，主要做法是針對模型的發布、應用制定一系列制度措施，包括：

1. 分階段開放模型。OpenAI 分 4 個階段、由小至大開放了 GPT-2，以逐步了解模型特性，減少被濫用的可能性。

2. 只針對特定對象開放，並與合作者籤訂法律協議以規定雙方的權利和義務。

3. 制定模型應用的具體規則。OpenAI 在開放 GPT-3 早期模型時會審查所有使用案例，並及時中止可能產生危害的應用，降低潛在風險。

上述治理機制和技術都在一定程度上降低了通用模型潛在的社會和倫理風險，但是這些措施仍具有一定的局限性。

1.現階段針對通用模型的專題治理機制欠缺系統性，沒有與人工智慧的總體治理框架緊密結合。如果審查下遊應用案例的倫理權力被模型提供者壟斷，這種權力的集中不僅會降低倫理審查的效力，也提高了使用者的風險。

2. 現階段的治理技術還是相對割裂和零散的，沒有將技術與倫理很好的融合。例如，作為應用最廣泛的去毒評估模型，Perspective API 的眾包評審機制更多是基於統計和描述的方法，缺乏規範性和理論性依據。一方面，有害文本的判斷與個人經歷、文化背景、內容場景等有很強的關聯性，對用戶 A 或某個地域的群體不具冒犯性的言論可能會冒犯到用戶 B 或另外一個地域的群體。因此，需要在評估之前充分考慮評審規則的合理性、評審員的多樣性等問題。另一方面，API 現有的打分方式無法區分有害文本的危害程度。現有的評分方式是基於文本被認為有害的可能性，即雖然一些行為比其他行為更讓人感到冒犯，但模型只能區分一個行為的冒犯性與否，而不能體現冒犯行為之間的質量差異。有必要在系統理論規範的指導下，探索更合理的分級機制。

總的來說，現階段應對措施的局限性與缺乏系統性考慮和缺乏理論性、規範性指導密切關聯。通用模型作為訓練數據的「鏡像」，具有建模複雜問題和映射社會問題的能力，但卻存在對現實世界中事實與價值的粗糙處理，導致所謂的「長尾效應」，即從最普遍需求的角度來看，模型整體上表現優異且符合各項指標，但是對於差異化、特殊性、個性化的需求而言，模型仍然存在風險。為了使通用模型輸出的結果更符合人類價值觀，在模型發展的早期就將倫理理論和規範介入是十分必要的。

5 展望：建立開放式、全流程、價值嵌入的倫理工具

現階段應對措施的局限性表明，下一階段的通用模型治理需要將以下 3 個因素納入考量。

要秉持開放式的態度，充分評估數據和模型的倫理影響和風險點。

這樣做的前提是建立擁有交叉學科背景的倫理委員會、透明的評審規則、合理的倫理權力分配機制和第三方審查機制。在此基礎上，從多角度評估數據和模型的潛在影響，特別是數據的多樣性、文化背景和模型應用的時間和空間屬性，充分評估模型在特定場景下、對特定人群可能產生的影響，降低潛在的負面效應。

從全流程的視角出發，將倫理考量納入通用模型及其生態系統建設進程之中。

一方面，要通過教育、培訓等手段加強科研人員和使用人員的倫理素養，讓相關人群切實體會到科技倫理的重要性，負責任地研發、使用通用模型。另一方面，需要研發更系統的解決方案和上下遊技術手段，對訓練數據和模型表現進行倫理調節，改善模型在各個環節的道德敏感度。

要充分探索「價值敏感設計」「負責任創新」等倫理方法在通用模型語境下的可行性。

不僅要將倫理規範嵌入到技術研發中去，更要考慮如何通過對模型的倫理規制與技術對人的規制的雙向互動，真正探索出合乎倫理的模型的研發之路，前瞻性地規避價值缺失、價值衝突、價值違背等價值問題，保證其在合規、合倫理的框架下促進人工智慧的發展。

致謝

感謝喬宇和王昊奮對本文提出的建議，感謝傅則成的前期資料收集工作。

滕妍 上海人工智慧實驗室治理研究中心青年研究員，荷蘭代爾夫特理工大學博士。主要從事科技倫理和人工智慧倫理治理研究。

王國豫 復旦大學哲學學院教授、博士生導師，復旦大學生命醫學倫理研究中心、應用倫理學研究中心主任。中國自然辯證法研究會科技與工程倫理專業委員會副理事長，上海市自然辯證法研究會理事長，上海國家新一代人工智慧創新發展試驗區專家諮詢委員會委員，中國計算機學會職業倫理與學術道德委員會共同主席。主要從事應用倫理學和科技倫理、科技哲學的研究。

文章源自：滕妍, 王國豫, 王迎春. 通用模型的倫理與治理：挑戰及對策. 中國科學院院刊, 2022, 37(9): 1290-1299.

DOI:10.16418/j.issn.1000-3045.20220505003