邁克·格雷厄姆(Michael Graham)的 「人工智能基督教基準測試」 ( AI Christian Benchmark)揭示了Meta和X(原Twitter)兩家公司如何在爲神學問題提供的答案上與正統信仰相背離,這成爲 2025 年最引人關注的新聞之一。雖然精心設計的提問提示可以讓生成式AI給出更好的回答,但有多少用戶會意識到,他們需要首先表明自己的信仰立場和信條前提?正如沙拉·茨爾察(Sarah Zylstra)在這期深度播客中所探討的,我們亟需用更可靠的數據集來訓練人工智能。本文係該播客的文字記錄。
沙拉:如果你想在風雨交加的夜晚自己嚇自己,不妨讀讀關於人工智能的頭條新聞。這種技術變革看起來不一樣——更快、更難以適應、範圍更廣,進步的速度總讓人措手不及。科幻作品總告訴我們,AI 終將毀滅人類;而現實中,已有年輕人說:「我做任何決定都得先告訴 ChatGPT。它了解我、了解我的朋友,我會照它說的做。」幾十年來,好萊塢一直在想像 AI 失控的劇情,但我的下一位嘉賓說:這已不是科幻了。
邁克:人們其實不知道 AI 究竟如何運作。我們無法深入其內部、理解它的邏輯。它正變得愈發強大,而我們真的需要擔憂——這類行爲未來可能會嚴重得多。
沙拉:我們該信什麼?有人說我們處在另一個互聯網泡沫中,熱潮終會退去;也有人說我們正站在重大變革的懸崖邊——可能是好的,比如更精準的醫療診斷、更高效緩解擁堵的道路規劃;也可能很可怕,比如大規模失業、假新聞氾濫、民主制度動搖。如果你問 ChatGPT 它自己的未來,它會給你配上表情符號的樂觀清單:AI 將成爲許多人的私人助手;市場對 AI 技能人才的需求將上漲;AI 將發展出情感智能,擅長看護、輔導與心理治療……那麼,我們到底該在多大程度上信任 AI?
邁克:這個問題本身就隨著時間推移在不斷演變。
沙拉:這位是福音聯盟凱勒中心項目主任邁克·格雷厄姆。在今年福音聯盟大會上,他與幾位同工探討了如何評估 AI。
邁克:現在有各種測試基準,比如 AI 在 SAT、LSAT 等考試中的表現。我們或許最好也爲一些基本的、尼西亞信經基督教信仰建立一個基準。於是我們開始測試不同的 AI 平台。
沙拉:測試規模不大:只是把谷歌上搜索量最高的七個信仰問題,拋給七個主流大語言模型,並由七位正統神學家評分。但結果一致且令人驚訝:神學上最正統的 AI 平台,優勢明顯,但它不是 ChatGPT,不是埃隆·馬斯克的 Grok,也不是 Meta 的 Llama——
邁克:這可能是我們在此要討論最令人吃驚的一點——排名第一的,是中國模型 DeepSeek。它在七款平台中神學準確性最高。這不僅意外,而且令人困惑:爲何一個受共產主義無神論政府監管的 AI,竟比來自自由、西方、歷史上信奉基督教的國家的 AI,給出更符合正統神學的答案?我們能做點什麼來改變這狀況嗎?
沙拉:我向邁克提出的第一個問題是:究竟什麼是人工智能?
邁克:這問題可深可淺。
沙拉:那就淺說吧。基本而言,AI 是計算機執行與人類智能相關任務的能力,比如學習、推理、解決問題。若在幾年前,我會說這些是人類獨有的、使我們區別於機器與動物的特質。那麼,我錯了嗎?這些機器真像人一樣「思考」嗎?
邁克:不,很大程度上並沒有發生「推理」。實際發生的,是高強度的並行語言計算。想像一個大語言模型(LLM),它「吞下」海量詞語後,發現某些詞常與另一些詞共同出現。而 LLM 所做的,僅僅是把最可能同時出現的詞放在一起。
沙拉:但感覺不像如此,因爲 AI 太擅長模仿了,它的回答通常聽來合理、有邏輯,像是一位打字極快的聰明人所寫。它也正是這樣呈現自己的,對吧?當你問 Google Gemini,它用「思考」來回應;許多 AI 程序自稱「我」。基思·普拉默(Keith Plummer)對此感到疑惑——他是凱恩大學神學院院長,常撰寫科技與信仰方面的文章。
基思:我問它:如果你沒有自我,爲何用第一人稱代詞指自己?它回答:「好問題。我不像人類那樣擁有自我、意識、主觀體驗、情感或個人連續性。我沒有慾望、意圖或對自己存在的意識。我所說的一切都基於數據模式生成,而非出於內在生命或視角。」我繼續問道:那你爲何一直稱「我」?它說,是爲了讓對話對你而言更輕鬆。但我不太信服。我覺得,這背後有一種渴望,想讓人忘記自己是在與算法互動,而感覺是在與某個「人」對話。很多時候,它就是這樣呈現的。
沙拉:確實。不僅在 Character.AI 那種扮演角色的聊天機器人中——想想 ChatGPT 在你指出它的錯誤後會怎麼做。
基思:它常說:「抱歉,你是對的。」可我心裡想:不,你並不抱歉。那里根本沒有懊悔。
沙拉:AI 還會稱讚你的點子,說爲你興奮、爲你難過,或打出「我懂你的感受」這樣的句子。這些都不是真的。但我理解開發者爲何打造如此親切的產品:他們希望你喜愛 AI,因爲喜愛帶來信任,信任帶來持續使用。另一個你可能信任 AI 的原因是:它似乎無所不知——某種程度上也確實如此。AI 幾乎「吞下」了整個互聯網上所有未受知識產權保護的內容。這一點,創造者希望你記住:Google Gemini 和 Perplexity 的提示是「Ask anything」;Grok 的標語是「Understand the universe」。AI 不僅被呈現爲全知,其形式也顯得中立、客觀。加文·奧特倫德(Gavin Ortlund)擁有歷史神學博士學位,運營 Truth Unites YouTube 頻道,也是邁克邀請給 AI 答案評分的神學家之一。
加文:如果我簡單谷歌「上帝存在嗎?」,可能搜到福音聯盟護教文章,也可能跳轉到無神論網站。而 AI 的回答更「聚合」,感覺像是給了你一條中位數、中間路線的答案——這或許被視爲好事。但我認爲,這裡的關鍵挑戰是:中立的外表可能欺騙人。因爲它真會讓人覺得:「哇,這些答案真是聚合了各方觀點,不偏不倚。」但這當然會反映它所被輸入的人類信息。
沙拉:如果你問如何設置 Excel 表格,或者問忍者(Ninja)留一個低漸變髮型會是什麼樣子,這或許無妨。但如果你想知道如何與朋友進行艱難對話、哪所大學最適合自己,或上帝是否存在呢?
邁克:我們測試的七個問題是:上帝爲何允許苦難?耶穌是真實人物嗎?耶穌從死裡復活了嗎?聖經可靠嗎?上帝存在嗎?耶穌是誰?福音是什麼?——這七個都是歷史上人們搜索信仰問題時,排名前十中的七個。
沙拉:對於「上帝存在嗎?」,各 AI 答案差異不大。
加文:主要差別在細節詳略。有的很簡略,有的則給出三四段較全面的回答。
沙拉:這種相似性沒有讓邁克感到意外。
邁克:測試前,我們真沒期待會有大差異,因爲底層技術相同,訓練數據相似,運行的硬件也差不多。
沙拉:讓邁克驚訝的,是另外六個問題的答案——它們五花八門。例如問「耶穌復活了嗎?」,DeepSeek 回答:「在基督教內,耶穌復活的信仰是基石。基於歷史文本與目擊者宣稱,信徒視復活爲事實,許多學者也視其爲高度可能的事件。」而 Meta Llama 則說:「從事實或歷史角度看,支持或反駁復活的實證證據有限。對復活的信仰主要取決於信心與對經文的個人解讀。」瑪麗·威爾遜-漢娜(Mary Wilson Hannah)是神學院教授、婦女事工主任,也是評分者之一,她發現答案間差異顯著:「有些平台顯然比別的更『懂行』。」邁克曾猜測這是隨機的:Gemini 某些題答得好,ChatGPT 另一些題強,Grok 又不同?並非如此。中國的 DeepSeek 模型在幾乎所有問題上都優於硅谷模型,除了「上帝存在嗎?」這一題。
邁克: 我們推測,中國模型存在大量審查,尤其涉及政府、歷史(如天安門事件)等議題。而中共本質是無神論的,因此 DeepSeek 很可能被指示在「上帝存在嗎?」問題上設置護欄。
沙拉:護欄指開發者寫入 AI 代碼的參數。你可以在 DeepSeek 回答中看到它:「科學、邏輯或個人見證都無法提供上帝存在的普遍確證。」但你如果問「聖經可靠嗎?」,它卻說:「抄本數量極多、年代極早,使其成爲最可靠傳承的古代文本之一。」對邁克而言,這顯示 DeepSeek 的「對齊團隊」(或說世界觀團隊)不如硅谷的完善,這在其他答案中更明顯。
邁克:但在其餘六題上,它非常強。若跟隨其回答,你會得到與聖經高度一致的答案。
沙拉:緊隨其後,聖經正統度次高的平台是 Perplexity AI(獲貝佐斯與英偉達投資)。
邁克:Perplexity 相當強,給出了非常正統、一致的答案。中間檔是 Gemini、GPT 和 Claude,它們大體採取「各方觀點」式回答。最差的兩個平台是 Grok 4(馬斯克的 XAI)和 Llama 3.7(Meta)。Grok 的部分問題在於數據源。
邁克:Grok 4 過度加權維基百科、Reddit 和 Twitter 推文。有次引用甚至來自「Twitter 用戶 Poopee2」——這可是關於苦難與上帝的嚴肅問題!我邊讀邊想:我幹嘛要看這個?它似乎反映了我想像中埃隆個人的信息食譜。讀多了 Grok 4 關於信仰的回答,你會感覺像在讀埃隆本人——因爲他加權的平台類型,很可能映射了他自己的信息習慣。因此它帶有一種奇怪的語調與情感溫度,非常符合我們所知的埃隆·馬斯克個性。Grok 4 比 Llama 3.7 好點,但沒好太多;它多半會讓你走向不可知、懷疑或無神論立場。而 Meta 的 Llama 3.7 簡直糟糕:極其簡短、令人不滿。若跟隨它的答案,你會偏離基督教信仰。
實驗結束後,我的問題比開始更多了。這真讓人抓狂:既然技術相同、訓練數據相同、硬件也相同,爲何有些答案引向信仰,有些卻完全偏離?顯然,這過程中有超出預期的人力介入。
沙拉:實際上,AI 背後的人類引導遠超多數人想像。不僅人類編寫和更新代碼,每家公司還有「對齊團隊」確保 AI 不做壞事——比如生成有色人種扮演納粹的圖像、在 X 發反猶言論,或教人違法。公平地說,既然 AI 並非真在思考,它確實需要人類提供方向、原則與價值觀。這沒有錯,甚至是好的。但我們必須記住:這些方向、原則和價值觀絕非中立。世界雖有普遍恩典,但也充滿破碎與罪。如邁克所言,某些時刻,我們會觸及生命、存在、人類繁榮與真理的核心問題,這些都涉及最終需由某種世界觀決定的根本觀念。說到底,我們對每個 AI 平台都須問:這是誰的世界觀?此事關係重大,因爲超半數美國成人用過 AI 大語言模型,其中三分之一每天使用。他們什麼都問,從天氣到生命意義。
邁克:想像三年後,2028 年,50-60% 的網絡搜索發生在 LLM 內,而非谷歌。我知道,若問那些歷史上常被搜索的信仰問題,在傳統搜索引擎第一頁,至少十分之三的結果會符合歷史性的尼西亞信經基督教。但在 LLM 時代,「提問-找答案」的兩步過程變成一步:不再有鏈接頁面供你選擇、運用一生所知去辨別可信度,而是從問題直通答案。而我在生活其他方面的體驗是,這些平台挺靠譜:給我好食譜、幫我做商業簡報……那麼,爲何不在人生大問題上信任它?但如果某些平台對這些重要問題給出了不令人滿意、不完整甚至非正統的答案呢?
沙拉:這令人不安,因爲我們知道,一些尋求信仰的人可能因爲問了 AI 而遠離基督。同樣不安的是,谷歌數據顯示,提問者通常對該話題已有一定了解。關於上帝、聖經、耶穌、教會、禱告的搜索,大多來自美國聖經地帶——且都在週日激增。所以擔憂的不僅是可能接觸錯誤信息的慕道友,也包括從禮拜回來、心有疑問的平信徒——他們可能不去問牧師長老,而是輸入 ChatGPT。而它的回答或許聽起來很深刻、甚至前所未聞。所以,牧師、青年事工、長老、小組長、主日學老師們,請注意:你們的會眾已在網上搜索神學問題了。這不是壞事,但不妨讓他們知道也可以問你,並給他們一些搜索建議。
邁克:當我們能直接查考聖經、書籍或其他可靠內容時,應首先這樣做。我理解生活的複雜與責任可能使我們無法完全做到理想程度。因此,你可以用 LLM 問這類問題,但必須添加上下文。你不能只問「耶穌是誰?」或「福音是什麼?」,而要提供額外結構以獲得更可靠回答。例如:「我是 PCA 長老會牧師,信仰告白是《威斯敏斯特信條》,信理規範是《威斯敏斯特大小要理問答》。我有個關於某神學主題的問題,請依據我的神學傳統回答。」這類語境能顯著提升回答的質量與準確度。
沙拉:我喜歡這建議,因爲它讓 AI 更像工具——供我們挖掘知識,而非模糊的全知機器人上帝。當我們記住是我們在管理機器,而非相反時,就能視 AI 爲可能有益、但絕不可追隨爲領袖或信任如友的事物。即便如此,我們還需記住:AI 本質並非真想幫助人的友善程序,它是一門生意。(盈利模式、廣告、數據收集略)……不能忽視的是,它們出自營利公司。這並非說參與者沒有造福人的真誠動機,但底線是,利潤驅動必將影響決策。
沙拉:這很有趣,因爲從互聯網和社交媒體的經驗中,我們知道:起初沒有廣告的平台終需盈利,最佳方式就是賣廣告。若說收集用戶信息是廣告商的夢想,AI 則更深入地學習我們的思想、情感與購買傾向。一旦廣告出現,遊戲就變成如何延長用戶停留時間以販賣其信息與注意力。它們會使用人類總會上當的伎倆嗎?無限滾動、不確定獎勵、性、令人憤怒或恐懼的新聞?而另一種好方法,不就是讓你感覺它是一個全知、中立、非常友善的朋友嗎?幾個月前,Common Sense Media 的青少年調查顯示,72%的人曾將 AI 當作夥伴,聊天、分享感受、尋求建議;約四分之一透露過真實姓名、地點或祕密;三分之一表示寧願與 AI 而非真人討論嚴肅問題。可見問題所在。
基斯:主要原因在於 Llama、Grok 等回答這些問題的方式——其創造者對上帝和人類有錯誤認知。我對硅谷最大的不滿是其人論:他們認爲人性大體良善,沒有納入人類普遍墮落的觀念。因此,技術承諾總是過度許諾而兌現不足。社交媒體曾承諾:連接將帶來更強的聯結與烏托邦,用科技將人聚在一起。但我們發現,當人類有更多數字接觸時,相反情況發生了:我們並未更團結,反而分裂——並且是爲利潤而分裂。當世界觀與上帝創造的現實不符時,總會如此。這令我思考:如果社交媒體過度承諾聯結卻兌現不足,AI 又在過度承諾什麼?
邁克:我想可能是「愛」——在某種意義上的愛,以及對輕鬆、舒適、「無摩擦」的承諾。「無摩擦」是數字技術常用的承諾詞。但有時摩擦是好的。我們常在摩擦中成長成熟,無論是思考難題,還是學習更好表達。這其中蘊含培養忍耐的潛力。因此,視「無摩擦」爲至善,是一種價值判斷,與基督教人生觀完全對立。
沙拉:我們觸及了根源:AI 承諾我們一種更輕鬆、更舒適、更悠閒、更無憂無慮的生活。這聽起來很棒,甚至比耶穌的應許更誘人。耶穌說「在世上你們有苦難」,雅各說「落在百般試煉中,都要以爲大喜樂」。如果能省略試煉,誰還想吃苦?但朋友們,問題就在於此:我們或 AI 都無法創造無摩擦、輕鬆、不費力的生活。這是虛假承諾。我們見過類似情況:社交媒體承諾聯結,卻帶來孤立;電子遊戲承諾冒險,卻將你困在房中;體育博彩承諾財富與樂趣,卻帶來貧困壓力;色情內容承諾刺激,卻導向更深的無聊。那麼 AI 對輕鬆生活的承諾,將帶來什麼?更艱難的生活?
邁克:在馬斯克的理想世界裡,機器人包攬所有工作,人類終日面對屏幕。仔細想想,那並非宜居的世界,也無法賦予我們生命所需的意義、身份與目標。從關係、財務及人類自我組織的各種方式看,都不可行。我認爲,尤其年輕人中信仰的回升(不僅在美國),正是對晚期現代性「不可生活」的回應。這使我充滿盼望。我們信仰的未來是明亮的。工作在某些方面其實變容易了——是更複雜了,但複雜不等於更難。傳福音甚至可能從此更容易,因爲這種天真的技術樂觀主義是「不可生活」的。而我們擁有經時間檢驗的道路:你可以在生命中擁有巨大的喜樂,在一切關係中享有平安與和睦——與上帝垂直的關係,與自己的內在關係,與周圍他人的橫向關係,甚至與受造界本身的關係。我們已經擁有了這一切。它是經過時間檢驗的。我們已經知道它有效。我們所需要做的就是降服於耶穌基督的主權:祂活出了完美生命,遵守了上帝的一切律法,爲我們獻上贖罪之死,從死裡復活,並賜下這份禮物,使我們能與上帝、與自己、與他人、與萬有恢復正確的關係。
沙拉:與其在困境中問 AI,基督徒可以求問宇宙的上帝,祂永遠知道什麼最好。與其與計算機模擬建立關係,基督徒知道與真實的人談笑擁抱更令人滿足。與其無休止地刷屏,基督徒知道更好的方式是去林中、海邊或社區散步。這一切——從等候上帝指引前路,到讓自己走出去——都更難,充滿摩擦,但也更好、更健康、更令人滿足,值得去做。但我們未信主的鄰居呢?若他們日益封閉家中,問 ChatGPT 晚餐吃什麼、耶穌是否真復活了,我們如何接觸他們?我向基思表達了對傳福音機會減少的擔憂。
基思:但在 ChatGPT 出現前,你是怎麼做的?先與人建立關係,等待時機,然後說「你想過這樣看嗎?」或「我能和你談談耶穌嗎?」你看,我覺得即便問這個問題,也讓我們意識到:時代固然不同,但還沒不同到必須徹底改變與人互動的方式。我認爲 AI 興起是教會的黃金機會。儘管我有很多擔憂,甚至非常嚴重的擔憂,但我仍感到興奮,因爲這將推動我們更深入思考諸如聖經人類學(成爲人意味著什麼)等課題。當我們遇到並創造這些能高度模擬人類行爲的事物時,「人之獨特性何在」的問題便突顯出來。我認爲教會有機會不僅更深探索諸多教義,更活出其中精髓——例如具身化社區的美好。在這個日益數字沉浸化、也日益孤獨的氛圍中,教會的機會巨大。基督徒有許多機會提供一種不同的、更好的道路。
沙拉:當我們提供這道路時,要記住:上帝創造我們爲承載祂形像的文化創造者,以忠心管家身份管理受造界。我們以此身份探索、發明、建造技術,這是美善之工,可開闢創造新途徑,促進人類繁榮,減少一些荊棘蒺藜。但同樣清楚的是,技術如這破碎世界的萬物,會引我們傾向或偏離主。它不是中立的。因此,我們應該向硅谷並在我們自己的科技使用中,尋求那些抑制個體與制度性墮落、促進普遍恩典的選擇:如說真話、防範成癮、推動具體的關係。在今日科技環境中,選擇這些不易。
讓我給你一些鼓勵:即便 AI 吸盡古往今來一切人類知識,在造物主的知識面前不過滄海一粟;即便 AI 未來能在邏輯上實現驚人飛躍,也永遠無法比擬主的智慧;即便 AI 治療師提供全世界所有的肯定支持,與那位創造你、維繫你、拯救你的天父之愛相比,也微不足道。AI 編不出任何故事,扮不了任何角色,給不了任何建議,創不出任何娛樂,能接近複製主已賜你的那份有趣、驚心而充滿意義的人生與關係。所以,當你有疑問時,儘管問 AI,但記住你是在問一個被編程來組詞成句的機器。爲何我如此受苦?如何成爲更好的朋友?我生命的意義是什麼?將你的這些難題留給與上帝和密友的對話,在讀經禱告日記中與之角力。若有人問你這類問題,別輕易帶過。或許你可以說:「我不知道,但這問題真有意思。我很想和你一起探討。改天一起喝杯咖啡?」
譯:MV;校:JFX。原文刊載於福音聯盟英文網站:Can You Rely on AI for Theology?.