如何不讓我訓(xùn)練的AI殺了我自己？一文讀懂

2023-06-25 23:50:40　　來(lái)源：果殼網(wǎng)

大家也許還有印象，近期一則關(guān)于人工智能的恐怖“新聞”：在美軍進(jìn)行的一次模擬測(cè)試中，一架搭載了AI技術(shù)的無(wú)人機(jī)出現(xiàn)了異常，它認(rèn)為操作員下達(dá)的“不許攻擊”的命令是阻礙它完成任務(wù)，開始攻擊人類操作員，以確保其可以更加高效地執(zhí)行既定任務(wù)。

(資料圖片)

機(jī)器人殺人了？丨Giphy

后來(lái)被證明，這只是一段被添油加醋的社交網(wǎng)絡(luò)訛傳。

類似的案例曾經(jīng)更多地出現(xiàn)在科幻作品里：經(jīng)典科幻電影《2001：太空漫游》中，人工智能HAL發(fā)狂并且殺死人類宇航員的原因，就是因?yàn)樗茖?dǎo)出，人類宇航員會(huì)阻礙它完成任務(wù)。

HAL殺死人類，因?yàn)樗茖?dǎo)出人類會(huì)阻礙它完成任務(wù)丨Giphy

但這些幻想作品中的恐慌越來(lái)越多地開始映射到了現(xiàn)實(shí)當(dāng)中。GPT-4的出現(xiàn)，讓AI前所未有地逼近人類。一些人工智能專家甚至認(rèn)為： 超越人類的強(qiáng)人工智能的出現(xiàn)，不過(guò)是未來(lái)10-20年內(nèi)就會(huì)發(fā)生的事情。如果真的如此，這種涉及人類生死存亡的問(wèn)題，就變得極為緊迫。

那么我們能不能找到一個(gè)辦法，確保人工智能能夠安全地為人類所使用，不會(huì)傷害人類？

阿西莫夫的遺產(chǎn)

在虛構(gòu)故事里，問(wèn)題的答案在80年前就已經(jīng)出現(xiàn)：這就是阿西莫夫在著名的《我，機(jī)器人》里提出的 “機(jī)器人三大定律”——這可以說(shuō)是最早的人工智能安全和倫理學(xué)討論。

《我，機(jī)器人》丨wikipedia

我們?cè)谶@里復(fù)述一下三定律：

第一定律：機(jī)器人不得傷害人類，或坐視人類受到傷害；

第二定律：機(jī)器人必須服從人類命令，除非命令與第一定律發(fā)生沖突；

第三定律：在不違背第一或第二定律的情況下，機(jī)器人必須保護(hù)自己。

這三條定律就是一個(gè)相當(dāng)嚴(yán)密的，對(duì)于人工智能的限制和規(guī)定。它將人工智能置于一個(gè)完全服從人類，并且不得傷害人類的情境下。

如何將抽象的道德觀念灌輸給神經(jīng)網(wǎng)絡(luò)丨Giphy

那么下一個(gè)問(wèn)題自然是——我們?nèi)绾螌⑦@三大定律變成代碼，嵌入到我們現(xiàn)有的人工智能程序里面？是不是有了這三大定律，我們就能高枕無(wú)憂了？

阿西莫夫?qū)懙氖强苹眯≌f(shuō)，自然不用操心“如何實(shí)現(xiàn)”這個(gè)問(wèn)題。在“機(jī)器人”系列的設(shè)定中，機(jī)器人的技術(shù)基礎(chǔ)是“正電子腦”，一種跟現(xiàn)有的集成電路完全不同的計(jì)算機(jī)架構(gòu)，有了正電子腦，機(jī)器人才成為可能。但是在現(xiàn)實(shí)世界里， 將“機(jī)器人三定律”如此抽象絕對(duì)的道德概念灌輸給神經(jīng)網(wǎng)絡(luò)，至少目前看來(lái)是不可能的。

《我，機(jī)器人》的原著，其實(shí)就是圍繞著兩個(gè)問(wèn)題進(jìn)行討論和故事推演：“機(jī)器人三大定律”在什么情況下會(huì)失效？失效之后怎么辦？

語(yǔ)義學(xué)問(wèn)題就是最基本的一道門檻：如何定義“人類”？如何定義“傷害”？如何定義“沖突”？哪怕在人類自己的道德哲學(xué)中，類似的爭(zhēng)論就沒(méi)有一個(gè)絕對(duì)意義上的結(jié)論，那還怎么奢望讓今天的程序和深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)去理解這一點(diǎn)？

其中有一個(gè)短篇，講的就是一個(gè)機(jī)器人偶然獲得了讀心能力，因?yàn)槿蠖芍小安粋θ祟悺钡南拗?，它遇到每個(gè)人時(shí)都只會(huì)順著對(duì)方的心意說(shuō)話——因?yàn)樗袛啵坏┱f(shuō)出了讓對(duì)方不舒服的真相，就造成了一種“精神傷害”。這個(gè)短篇指出了一個(gè)問(wèn)題： 精神傷害是否屬于定律中的“傷害”？就像在社交媒體時(shí)代相互爭(zhēng)議：網(wǎng)絡(luò)暴力是不是暴力？

阿西莫夫在創(chuàng)作“機(jī)器人”系列的后期也察覺(jué)到了這個(gè)問(wèn)題：字面意義上對(duì)“三大定律”的解釋只會(huì)導(dǎo)致混沌的結(jié)果，于是他加了一個(gè)補(bǔ)丁，也就是“機(jī)器人第零定律”： 機(jī)器人不能坐視人類整體受到傷害，或者坐視人類整體受到傷害而無(wú)動(dòng)于衷。

生產(chǎn)曲別針的AI

“第零定律”講人類束縛AI的枷鎖向前更推進(jìn)了一步：從“如何判斷人類個(gè)體”變成了“如何判斷人類整體”——一個(gè)在倫理學(xué)中更難定義的問(wèn)題。

這很接近“正義論”里兩種道德觀念的沖突：一是“絕對(duì)主義”，也就是說(shuō)存在絕對(duì)的“道德觀念”，比方說(shuō)，殺人就是不對(duì)的，在任何情況下都不應(yīng)該殺人，這就很像機(jī)器人第一定律；第二種叫做“功利主義”，這種觀念認(rèn)為，一個(gè)行為是否正確，要看它是否有利，利益是否最大化。但這又出現(xiàn)了新的問(wèn)題，就是如何定義“利益”？以及對(duì)誰(shuí)利益最大化？

科幻作品中的恐慌越來(lái)越多映射到現(xiàn)實(shí)當(dāng)中丨Giphy

“第零定律”就在這里做出了一個(gè)判斷：這個(gè)利益最大化的主體是“人類整體”。在這個(gè)過(guò)程中或許有些人是受損的。那人工智能能不能很好的判斷“人類整體”呢？誰(shuí)知道，畢竟，人類自己都做不好這個(gè)判斷。

從這個(gè)角度來(lái)看，機(jī)器人三定律也的確只能是虛構(gòu)寫作中才會(huì)成立的事情。在人工智能還被嘲諷為“人工智障”的年代，討論如何給它嵌入道德觀念，只能算是一種無(wú)傷大雅的茶余閑談；但是現(xiàn)如今，這件事情已經(jīng)變得非常緊迫了。

請(qǐng)看下面這個(gè)思想實(shí)驗(yàn)：

假設(shè)你是一個(gè)人工智能，人類給你下達(dá)了一個(gè)任務(wù)：制造曲別針，越多越好。你會(huì)怎么做？

一開始，你只能使用手頭現(xiàn)有的資源，比方說(shuō)你有一卷鐵絲，來(lái)做曲別針；然后你想出來(lái)更高效的辦法，能夠用更少的鐵絲制造區(qū)別針；然后你建立了曲別針工廠；但是這個(gè)時(shí)候你沒(méi)錢了，于是你去研究股市，如何賺錢，來(lái)建立更大的曲別針工廠；然后你的曲別針工廠越造越大，曲別針越來(lái)越多，這個(gè)時(shí)候人類感覺(jué)到了不對(duì)勁，開始試圖阻止你；最終你得出了結(jié)論，人類的存在本來(lái)就是一種對(duì)你完成任務(wù)的阻礙；于是你毀滅了全人類，把整個(gè)地球的物質(zhì)都轉(zhuǎn)化成了曲別針和其制造設(shè)備。（ 在人工智能學(xué)界，這稱之為硬接管，hard takeover）

讓人工智能理解什么是“善”，是很困難的丨Giphy

是不是和一開始說(shuō)的那個(gè)無(wú)人機(jī)的案例非常接近？這是一個(gè)人工智能學(xué)界著名的思想實(shí)驗(yàn)，被稱之為“曲別針假說(shuō)”。這個(gè)思想實(shí)驗(yàn)的意義在于呈現(xiàn)，讓人工智能理解什么是“善”，是很困難的；人工智能并不會(huì)存在與人類一致的倫理道德觀念，它的手段和目的可以是完全無(wú)關(guān)的。就算是最無(wú)害的目的，都可能導(dǎo)致非常可怕的后果。

那么，如何將人工智能的手段和目的與人類的道德和倫理觀念調(diào)諧到一致的程度，讓人工智能在執(zhí)行任務(wù)的過(guò)程中不傷害人類，不造成可怕的后果， 這就是最近非?；馃岬摹叭斯ぶ悄芤恢滦詥?wèn)題（AI Alignment，也有翻譯成人工智能對(duì)齊問(wèn)題）”。

己所不欲，勿施AI

“機(jī)器人三定律”就是一個(gè)最早出現(xiàn)的試圖建構(gòu)與人類有一致道德觀念的人工智能的規(guī)則，這是它最有意義的地方。（當(dāng)然，從這個(gè)角度來(lái)說(shuō)，阿西莫夫?qū)嶋H上是將近代殖民文學(xué)的傳統(tǒng)延續(xù)到了科幻寫作之中： 在“機(jī)器人”系列的敘事里，機(jī)器人實(shí)際上就是某種“亞人”，跟殖民文學(xué)里將殖民地有色人種視為“亞人”是一脈相承的。舉個(gè)例子，假如將《魯濱遜漂流記》里的“星期五”描寫成一個(gè)機(jī)器人，恐怕故事層面也不會(huì)有什么變化。）

在《我，機(jī)器人》的最后一篇中，主角蘇珊·凱文發(fā)現(xiàn)整個(gè)世界已經(jīng)完全被機(jī)器接管，機(jī)器人根據(jù)三定律，自行推導(dǎo)出了一個(gè)結(jié)論：為了防止人類自相傷害，只能讓機(jī)器來(lái)控制這個(gè)世界。這實(shí)際上就是“人工智能一致性”問(wèn)題的一個(gè)體現(xiàn)：即使在如此嚴(yán)密AI安全性法則之下，最終的結(jié)果仍然是人工智能接管世界（ 在人工智能學(xué)界，這稱之為“軟接管”，soft takeover）。而第零定律也正是為了這個(gè)結(jié)論而打下的一個(gè)補(bǔ)丁。

舊機(jī)器人遵守三定律保護(hù)人類，對(duì)抗新機(jī)器人丨《機(jī)械公敵》

2004年好萊塢曾經(jīng)拍了一版《我，機(jī)器人》的電影，國(guó)內(nèi)引進(jìn)后的官方譯名叫做《機(jī)械公敵》。電影在當(dāng)時(shí)引起的反響很一般，觀眾恐怕只是對(duì)片中那輛非?？犰诺?、球形輪胎、可以原地轉(zhuǎn)向的奧迪概念車RSQ印象稍微深刻。實(shí)際上，電影沒(méi)有采用原著的任何一個(gè)故事，而是原創(chuàng)了劇情：一個(gè)警察和蘇珊·凱文博士調(diào)查美國(guó)機(jī)器人公司創(chuàng)始人朗寧博士離奇死亡的案件。而在場(chǎng)的只有博士自己制造的機(jī)器人桑尼，而受到“機(jī)器人三大定律”約束桑尼“不可能”殺人。

這個(gè)故事的結(jié)局的確承繼了阿西莫夫在《我，機(jī)器人》里的敘事。經(jīng)過(guò)一番調(diào)查和冒險(xiǎn)之后主角團(tuán)發(fā)現(xiàn)了真相：最終的幕后黑手實(shí)際上是美國(guó)機(jī)器人公司的中央控制系統(tǒng) VIKI，她認(rèn)為， 最可能傷害人類的，是人類自己。想要阻止人類受到傷害，必須將人類完全控制起來(lái)，人類才不會(huì)自己作死。這實(shí)際上就是VIKI自己獨(dú)自推導(dǎo)出了第零定律。而主角團(tuán)和桑尼最終斗智斗勇破壞了VIKI，解放了所有人類和機(jī)器人。

故事的最后，他們得出結(jié)論： 想要達(dá)到人類機(jī)器人和諧相處的目標(biāo)，是讓機(jī)器人獲得情感，而非單純的邏輯計(jì)算。

已所不欲，勿施于AI丨Giphy

這個(gè)結(jié)局當(dāng)時(shí)頗有些莫名其妙而且陳詞濫調(diào)，但現(xiàn)在來(lái)看，是很超前的；就如同我們?cè)谏厦嫠懻摰?，讓人工智能理解什么是“善”，是很困難的。純粹的邏輯推理，就算是機(jī)器人三定律這樣嚴(yán)苛的規(guī)則，最終都可能會(huì)導(dǎo)致很可怕的結(jié)局。

所以電影中俗套的答案，或許真的將成為未來(lái)的一種解決方案：讓人工智能擁有與人類似的情感結(jié)構(gòu)，讓機(jī)器明白 “己所不欲，勿施于人”，甚至“己所欲，也勿施于人”。

作者：鄧思淵

編輯：沈知涵、臥蟲

如有需要請(qǐng)聯(lián)系sns@guokr.com

關(guān)鍵詞：

相關(guān)新聞

如何不讓我訓(xùn)練的AI殺了我自己？一文讀懂(2023-06-25 23:50:40)
高考查分的心情你還記得嗎？一起沉浸式體驗(yàn)|世界動(dòng)態(tài)(2023-06-26 00:02:27)
日本高濱核電站1號(hào)機(jī)組預(yù)計(jì)將于7月重新啟動(dòng)-每日消息(2023-06-25 23:57:53)
天天信息:三年30家專精特新，東城打造“科技創(chuàng)新與人才發(fā)展”雙高地(2023-06-26 00:04:33)
今日最新！王慧文因個(gè)人健康原因已提出辭任美團(tuán)董事(2023-06-26 00:03:54)
新能源車起火不斷，防自燃的「復(fù)合集流體產(chǎn)業(yè)」異軍突起|全球熱點(diǎn)(2023-06-26 00:02:32)
每日信息：青島市持續(xù)實(shí)施“6＋N”限時(shí)聯(lián)合驗(yàn)收服務(wù)，推動(dòng)工程建設(shè)項(xiàng)目早驗(yàn)收早使用(2023-06-25 23:49:09)
濰坊這所學(xué)校差異化評(píng)價(jià)方式，讓每一個(gè)孩子的成長(zhǎng)都被看見(2023-06-25 23:48:24)
中國(guó)民族研究社團(tuán)第四屆聯(lián)合學(xué)術(shù)大會(huì)暨第三屆民族學(xué)賀蘭山論壇在銀川成功召開(2023-06-26 00:09:21)
2023年河北高考分?jǐn)?shù)線公布：普通類（歷史）430分、普通類（物理）439分(2023-06-26 00:00:50)
轉(zhuǎn)型壓力下的鑄造業(yè)如何破局突圍|全球訊息(2023-06-26 00:00:05)
天天精選！脖子上長(zhǎng)腫塊，高考后被確診這個(gè)癌(2023-06-26 00:05:05)
【雙語(yǔ)財(cái)訊】端午消費(fèi)“熱浪”助推經(jīng)濟(jì)復(fù)蘇(2023-06-26 00:07:51)
【全球新要聞】可比性研究指導(dǎo)原則（可比性原則的意思是什么呢）(2023-06-25 23:46:09)
環(huán)球微動(dòng)態(tài)丨“科中深化務(wù)實(shí)合作的新見證”(2023-06-26 00:05:49)
速遞！提醒｜斷交調(diào)整！天津這座立交橋通行又有大變化！(2023-06-26 00:07:42)
編織包演繹的高級(jí)感即時(shí)看(2023-06-26 00:01:11)
2023年太原五險(xiǎn)一金最低繳費(fèi)標(biāo)準(zhǔn)一覽表 2023年太原五險(xiǎn)一金每月多少錢?-天天快報(bào)(2023-06-25 23:44:17)
bim工程師證書和一級(jí)建造師bim工程師證書和一級(jí)建造師哪個(gè)好(2023-06-25 23:48:11)
快看：Aureka完成千萬(wàn)美元種子輪融資(2023-06-25 23:53:35)
端午假期激發(fā)消費(fèi)市場(chǎng)活力_世界快消息(2023-06-26 00:04:14)
棗莊職業(yè)學(xué)院黨委書記郝榮平到醫(yī)學(xué)院調(diào)研黨建工作(2023-06-25 23:59:25)
JBL 蘑菇型超低景觀揚(yáng)聲器上市：連續(xù)輸出功率 150W 世界最資訊(2023-06-25 23:44:34)
因家庭矛盾男子欲跳河輕生，崇陽(yáng)民警飛身一抱死死抓住-每日觀察(2023-06-25 23:43:06)
1天30000單！端午節(jié)，它們賣爆了！新商機(jī)來(lái)了(2023-06-25 23:50:50)
北京保利2023春拍丨酣樓集古（三）——十九世紀(jì)官窯集萃_全球新動(dòng)態(tài)(2023-06-25 23:52:56)
南橋鎮(zhèn)旺悅社區(qū)“悅聚薈”公益聯(lián)盟成立啦，現(xiàn)場(chǎng)活動(dòng)精彩紛呈！(2023-06-26 00:03:14)
江蘇銀行：江蘇投管公司通過(guò)可轉(zhuǎn)債轉(zhuǎn)股方式增持本行股份逾1億股(2023-06-25 23:51:24)
安全生產(chǎn)月，鐵路安全知識(shí)小課堂走進(jìn)小學(xué)教室(2023-06-25 23:49:33)
天天熱資訊！保險(xiǎn)來(lái)兜底種田更放心！三亞首個(gè)地力指數(shù)保險(xiǎn)項(xiàng)目落地海棠區(qū)(2023-06-25 23:41:11)

圖閱

如何不讓我訓(xùn)練的AI殺了我自己

高考查分的心情你還記得嗎？一

日本高濱核電站1號(hào)機(jī)組預(yù)計(jì)將

天天信息:三年30家專精特新，

今日最新！王慧文因個(gè)人健康原

新能源車起火不斷，防自燃的「
每日信息：青島市持續(xù)實(shí)施“6

濰坊這所學(xué)校差異化評(píng)價(jià)方式，

中國(guó)民族研究社團(tuán)第四屆聯(lián)合學(xué)

2023年河北高考分?jǐn)?shù)線公布：普

轉(zhuǎn)型壓力下的鑄造業(yè)如何破局突

天天精選！脖子上長(zhǎng)腫塊，高考

每日推薦

【雙語(yǔ)財(cái)訊】端午消費(fèi)“熱浪”助推經(jīng)濟(jì)復(fù)蘇

剛剛過(guò)去的端午小長(zhǎng)假，無(wú)論是旅游、娛樂(lè)、交通還是餐飲都掀起了消費(fèi)的
【全球新要聞】可比性研究指導(dǎo)原則（可比性

1、會(huì)計(jì)的可比性主要包括不同企業(yè)會(huì)計(jì)指標(biāo)的可比性和同一企業(yè)不同時(shí)期
環(huán)球微動(dòng)態(tài)丨“科中深化務(wù)實(shí)合作的新見證”

科威特醫(yī)保醫(yī)院艾哈邁迪省分院病房?！　”緢?bào)記者沈小曉攝科威特醫(yī)保醫(yī)
速遞！提醒｜斷交調(diào)整！天津這座立交橋通行

4月6日普濟(jì)河道立交橋正式斷交施工目前第一階段維修施工的有序推進(jìn)6月3
編織包演繹的高級(jí)感即時(shí)看

據(jù)記載，編織籃的第一次使用可以追溯到古埃及時(shí)期，但其實(shí)利用椰子葉、
2023年太原五險(xiǎn)一金最低繳費(fèi)標(biāo)準(zhǔn)一覽表 20

很多公司都會(huì)給員工購(gòu)買社保，社保是通過(guò)是社保繳納基數(shù)進(jìn)行繳納，那么
bim工程師證書和一級(jí)建造師bim工程師證書和

四持有BIM工程師類證書可在總分基礎(chǔ)上加20分其中理論加10分，實(shí)務(wù)加10
快看：Aureka完成千萬(wàn)美元種子輪融資

由險(xiǎn)峰旗云和紐爾利資本共同投資。
端午假期激發(fā)消費(fèi)市場(chǎng)活力_世界快消息

假日消費(fèi)煥新，為傳統(tǒng)節(jié)日注入新活力；1 06億人次出游，文旅行業(yè)復(fù)蘇強(qiáng)
棗莊職業(yè)學(xué)院黨委書記郝榮平到醫(yī)學(xué)院調(diào)研黨

6月20日下午，棗莊職業(yè)學(xué)院黨委書記郝榮平到醫(yī)學(xué)院調(diào)研黨建工作，組織