鄭紹鈺/哈佛大學經濟系博士班,於哈佛甘迺迪學院學院國際發展中心(Center for International Development)擔任博士生附屬研究成員
我幾年前剛到哈佛的時候,人生地不熟,常常參加派對,認識些新朋友。有一天,我受邀參加了一個文藝氣息較重的的派對,當天來的人都比較文組一些。
一名中國AI博士生的鍊成
我看到一個壯碩的中國人孤零零站在角落,身巨如黑木,雙目如電,似乎不是簡單人物,但在派對裡保持沉默,似乎難以參予如沙特的存在主義之類的哲學話題,我在倒酒的時候出於禮貌跟他打了個招呼,才知道原來他是附近一間理工名校的博士生,專門研究電腦視覺。
剛好我在哈佛的實驗室的工作,就是用電腦視覺的技術大規模地處理歷史文件。當時我主要在處理的工作,包括了訓練的卷積神經網路(Convolutional Neural Network ,CNN)此一早期技術發展的模型,或實驗當時甫成熟的新技術Visual Transformer,都是我當時工作在弄的東西,聽到這裡,這位中國朋友非常興奮,說他最近也在研究Visual Transformer這一新技術,他回來美國之前,對這新技術並不熟悉。
「你之前也來過美國讀書嗎?」我問。
「對,我以前也在這學校唸了一個碩士項目,當時CNN的技術剛出來,我們Lab正在做,畢業時國內政府開了一個大項目,薪酬挺好的,我畢業就回國去了。」他提到。
我回想了一下,現代AI崛起的起點 — AlexNet模型,大約在2012年年底,是最早利用GPU來訓練視覺模型而取得巨大成就,這位中國朋友提到的碩士,大概是在2013年前後取得的。
「那是哪種計劃呢?」我問。
「那項目啊,說來挺複雜的。我辦公室在騰訊那幾間公司,並不固定,但我職位不屬他們,而是掛在一個國務院的單位下面。」
後來聽他解釋,才明白當時這一複雜的人事安排。中國幾間大型的軟體公司,大概在2010年初期,陸續取得許多中國政府的承包案,但這些承包案事關中國重大,於是中國政府並不放心這些東西全由私人企業經手,於是又從海外招募了許多懂技術的畢業生,把他們扔到這些私人企業下面工作,以這位中國博士生當時的情況,當時是被掛在國務院的不同單位下面。
或許是憋的悶壞了,幾杯酒後,這位中國博士生開始細數他以前的經歷。聽到我常常在Lab裡修GPU,他提到他幫忙修過某公司資料儲存的伺服器,但這工作是被凹的,沒支薪,但他從此不愛用中國國內的通訊軟體。而他陸續參與了幾個很大的項目。
他後來又轉調到不同的地區去,協助了中國政府把人臉辨識導入到了監視器系統當中,人臉辨識的基礎就是但裡面有些東西,他們也不信任既有的私人企業來做,因為他藉這機會開了一間自己的公司,又標到了不少包案。
跟今天熱門的大型語言模型不同,人臉辨識這種任務,其實只需要結合早期的CNN網絡技術,再配上孿生神經網路(Siamese network)的架構,其實就能得到非常好的效果,訓練成本低,應用成本也低,可是訓練上很大的問題是,人的臉其實變化很大,隨著各種人臉特徵差異(年齡、性別、種族等等),需要很大量且多元的訓練資料,才能在實務上達到很好的效果。
「那資料怎麼來的?」
「政府那邊很多資料,只是我當時要想辦法發包給很多人幫忙標註…」
他口中的標註,是指Labeling或稱Annotation,也就是要找許多人來在影像上,把人臉的範圍勾勒出來。而在訓練AI模型,會成為AI模型識別人臉的訓練材料。
「那感覺你在中國過得挺滋潤的,那麼你怎會想要潤出來唸博士班呢?跟武漢肺炎有關嗎?」
「唉,前陣子新冠疫情太嚴重,我公司就收起來,當時就寫了封信給以前lab的老闆,就到這邊來了。我現在覺得Visual Transformer這技術實在挺有意思…」
後來沒有在別的場合再見到這個中國學生,這件事我也漸漸忘了。然而,隨著學術界對於中國AI崛起的討論,又讓我想起來這個學生。
中國的人工智慧專制
哈佛大學的楊宇凡教授(David Yang)研究團隊的論文「人工智慧專制(AI-tocracy)」,便說明了這位中國博士生的例子並非孤例,事實上,整個中國AI產業的起飛,就是跟這些大型維穩計劃有關。
該研究團隊發現,中國的 AI 人臉辨識與中國日益加強的社會控制在2010年代中期,形成了一個完美的自我增強環路。這研究團體蒐集了中國政府公開招標AI服務的資料,發現一旦有任何的地方社會動盪,地方政府便加大採購AI服務,加快腳步地導入了人臉辨識,使得地方政府得以壓制社會運動。另一方面,中國企業的AI 技術,也受惠於威權統治者對於社會壓制,其實證分析進一步發現,那些獲得政府招標合約的 AI 公司,後續也會有更多的技術研發,且更有可能出口AI到其他國家。

簡言之,這些結果表明了,這些中國AI應用, 協助了中國鞏固政權,威權政權對 AI 的投資,則進一步刺激了前沿的發明,如魚得水,使得中國在這方面的技術得以超前。
不過中國為何沒有率先在生成式AI拔得頭籌呢?
生成式 AI 的核心技術,是所謂的 Transformer架構。事實上,ChatGPT 名稱中的「GPT」,正是 Generative Pre-trained Transformer(生成式預先訓練 Transformer 模型)的縮寫。一如前述,這項技術最初主要應用於文字資料處理,隨後被廣泛延伸至電腦視覺領域,逐漸成為今日自然語言與視覺模型的共同基礎。
自 Transformer 問世以來,中國主要科技企業如阿里巴巴、騰訊等公司,曾陸續發表了相關的前沿成果。這並不令人意外 — — 在歐美科技公司與學界,許多頂尖的 AI 研究者本身便是中國出身,他們回國後自然成為國內大型研究機構的中堅。前述那位中國博士生只是眾多例子之一:他剛唸博士的階段,其 Google Scholar 引用數已接近一萬次,可見中國在人工智慧專制的體系下,其AI科研實力之雄厚。
然而,讀者至此,恐怕不禁反問:儘管中國企業具備資金與人才優勢,先前卻未能積極投入生成式 AI 的研發。這原因何在?
成也專制,敗也專制。若回溯至 2020 年,OpenAI 發布了劃時代的 GPT-3 模型,同年阿里巴巴的創辦人馬雲卻遭到整肅,此時中國軟體科技公司的發展,幾乎找不到一個跟國家政策齊步走的方向。
要等到中國政府將新一代AI技術 納入政策重點後,情勢才終於明朗起來。自2023 年起,中國中央跟各地方政府相繼推出 AI 產業的扶植政策,同樣,阿里巴巴於同年發布了「通義千問」,其開源版本「Qianwen」也成為現今常見的開源模型之一。
隨後,深圳、杭州等地政府也推出了各種政策來招商跟協助AI企業。於是,在 2025 年 1 月,一家規模遠小於阿里巴巴的公司 — — DeepSeek(深度求索),儘管其開發過程頗有爭議,但其模型 R1 追上了美國 OpenAI 的表現,成為中國生成式 AI 的里程碑。

換言之,從2010年代跟2020年以來這兩波AI科技發展的經驗來看,中國的科研人才或已具備關鍵技術甚至是領先的實力,真正的突破往往仍需仰賴政策放行。為不能也,或不為也?當政府尚未明確表態時,企業便不願意放手去做。
比方說,先前DeepSeek的R2模型的發布便一延再延,據報導便是因為要從Nividia的GPU,轉到華為的昇騰Ascend系列上面去。這多少是出於DeepSeek自己幾經思考後的技術選擇,又多少是出於上頭來的政策壓力,外人如你我便不得而知了。
結語
回到開頭提到的那個中國博士生。當天派對結束後,我們到了一樓的大廳去等車,他叫了Uber,我叫了Lyft。四下無人,酒氣有點淡去。他問我要不要來一支菸,我說我不抽,他也索性就不抽了。
「沒意思。」他嘟噥著。
兩人陷入了不短的沉默,外頭下起雪。一會後的他的車似乎要開了過來,從對面的巷口轉了進來。
我問道:「你如果想到你做的研究,都在幫忙這個專制政權,你半夜心裡不會不安嗎?」
「唉呀,你臺灣人不明白當中國人的困難。」他的車停在了大廳前。「我只是十三億人當中的一粒沙,能掀起什麼浪呢?我也只是一個人,要說我對國家有什麼影響,似乎太過誇張了。」於是,他匆忙地上了車。
後來沒再遇到過這個中國博士生。
我先是想到了鄂蘭的研究。我腦中想著他一粒沙的比喻。
換我的車來了。上車後,我腦中突然想起了小時候聽人唸金剛經的誦經聲音:「如恒河中所有沙數,如是沙等恒河,於意云何?是諸恒河沙寧為多不…」
我腦中想著他一粒沙的比喻——但恒河的每粒沙,也有可能構成河啊。
★《鏡報》徵文/《鏡報》歡迎各界投書,來文請寄至:editor@mirrordaily.news,並請附上真實姓名(使用筆名請另外註明),職稱與聯絡電話。來文48小時內若未收到刊登通知,請另投他處。回到原文
更多鏡報報導
洪耀南專欄:韓劇《暴風圈》讓中國玻璃心碎滿地
鄭紹鈺專欄:當Big Brother長生不老─從政治經濟學談獨裁終生制
羅世宏專欄:館長嗆斬首賴清德 踰越言論自由界線