返回
「Prompt Engineering」的專業藝術家.尹相志
未來情境
設計與科技
專家訪談
「現在只要一個 prompt,什麼都可以啦!」--數據決策公司(DataDecison.ai)技術長尹相志

受訪人/尹相志(Allan Yiin) 技術長
編輯/研究員 吳承遠

AI 人工智慧所帶來的是「更寬廣世界」。畢業於台大化學系、台大新聞所的尹相志技術長,無論在理工、程式、甚至邏輯背景都非常突出,更是微軟長期合作的顧問。

尹相志說:「過去覺得到了一個年紀,因為受限專業領域的深耕或天賦等能力,能做的事情範圍容易被定型,我這個沒樂理背景的人,現在僅需幾個提示詞(prompt),我已經在 spotify 上架歌曲!」尹相志的對事物探索的熱情,就跟他的求學領域一樣跳「tone」與精彩。

 

與 AI 腦力風暴的「創意」之路

剛從 2023 Generative AI 發表完以 AI 撰寫「謀殺小說」的尹相志,再一次用這份例子,跟我們分享與 AI 共創劇本的互動原則。

其實在文本創作上,故事的大結構還是由人發想,這像是一個空骨架中,如何讓人們去塞東西讓它更完整,生成式 AI 在這一塊可以很好的協助文字的補全或是取材等,另外,生成式 AI 的重要意義是「打破同溫層」,尹說:「從歷史來看會發現一個好的文學作家生活似乎都相當苦難,因為只有經歷這些才能做出如此深刻的作品,但現在 AI 可以進行角色扮演,其實好像就不用過得那麼苦難。」
 

1. 還沒有想法,先請 AI 「窮舉」

對於 AI 互動的初學者而言,一開始都會不清楚目前生成式 AI 能做到什麼程度,建議不用想太多,以科學的「窮舉案例」開始,例如在劇本創作上,針對風格的改寫就是請 AI 窮舉各式各樣的劇本風格,接著就都讓每個風格跑一遍,幫助你思考。

 

2. 豐富內容,從「名人角色扮演」到「鏡頭語言」

放入更多「人」的元素,除了第一人稱視角的思考外,不能忘記「角色扮演」的重要性,選用不同作家名字來幫助撰寫,然後紀錄哪些作家姓名是有用的,哪些是沒有幫助的,讓取材變得容易很多。

不過尹相志也提醒:「有時候會請 AI 先告訴我有那些作家,但有一些可能是『唬爛』出來的」他建議一定要隨時核對檢查,而且隨著這些嘗試,我們會發現這裡面對這個東西會有一些累積。

你可能開始想還有哪些東西可以測,就可以進行敘事的手法的定義:像是要求 ChatGPT 用倒敘法的方式撰寫;或者是剪接技巧,把鏡頭語言的東西都納入進去。

尹技術長以鏡頭語言舉例提示工程的技巧:「為了讓畫面更多元,會加入如『第一人稱視角、低角度、以無人機俯覽方式等鏡頭角度』;在動態呈現上,也可以輸入像是『快速的動態穿越、或是縮時攝影等指令』,這些各行業的專有名詞,你也可以先問 AI !」

 

3. 由 AI 擔任專業顧問、與細節工匠

關於劇本設計,最重要的就是不斷跟 AI 對話。舉去年的謀殺小說為例,尹相志撰寫一個 AI 新創公司負責人的連環殺人案,他將幕後主使者設定為 AI 本身,並將某位受害者設定為外送推薦應用程式的老闆。

尹相志說:「為了讓 AI 能夠用合乎物理世界的方式處理掉人,我與 ChatGPT 來回討論了好多次,最後決定以花生過敏的方式謀殺老闆。」

為了讓過程具備邏輯性和合理性,尹相志請 ChatGPT 幫他蒐集花生過敏的生理反應順序,例如先從平滑肌大量充血開始等,才按照 ChatGPT 給的順序去描述生理痛苦的情況。尹相志認為這是非常有趣的過程:「我可以痛快地把很多的醫學生理知識跟創作快速連結,而不用為了創作還要另請顧問。」

「而這些劇本的生成,其實有很大成分依賴『偽代碼』的技巧。」



 

Pseudocode 與 GPTs

運用「偽代碼」(Pseudocode)技術,可以與 AI 一同製作小說、繪本、動畫影像等文本內容。談及偽代碼的影響,尹相志表示,這就像臺灣有人講國語,有人講台語,當溝通出現問題的時候,就會需要一個會「臺灣國語」的人來加速雙方理解。

所以,以前是人類要學習機器的語言(程式語言)來叫它做事,現在是機器要去學人類的語言來聽我們的指令,但兩邊都有一些問題,主要來自對彼此語言都沒那麼熟悉,所以偽代碼就成了一種平衡兩邊的溝通工具。

尹相志說,目前在流程的設計上主要使用偽代碼設計,例如說迴圈、if 、if-else 等,這種都是用偽代碼來控制,但裡面的執行細節則改用自然語言指令。例如以往要做中文分詞時,需要寫很麻煩的程式內容,但現在只要寫「請根據語意用束線符號將他隔開」就做完了,也就是說執行的細節用自然語言、流程控制用程式撰寫,生成效果會更好


尹相志也說,偽代碼與一段一段輸入的提示詞差異在於「可以把一些重複性的工作標準化」,例如一個繪本生成過程裡,雖然劇情有所變換,但無論是圖片風格、故事連貫性、和角色一致性等都具有重複性,如果要與 AI 來來回回對話,反而會耗費非常多的溝通成本。

繪本生成需要一連串連貫性高、視覺風格一致的組圖,因此,他會從「一個主題」作為發想,再把主題回盪到每頁裡。而每一頁裡,會有對應的構圖、劇情、與圖片說明,只要先以偽代碼設定好各自的定義後,就會成為一個可以標準化的模式。

所以不管將來要什麼繪本,只要輸入「故事主軸」與「主視覺風格」就可以生成一個新的成果。尹相志曾用偽代碼為小孩子做出「七天份的床邊故事」,他將主題訂為—傳達為孩子傳達美好德性,只要把每篇任務定義好,就能把這七天的主題故事寫出來!


Open AI 所推出的「GPTs」也是一個近期值得關注的議題。GPTs 主要是讓 ChatGPT 付費版用戶可以客製化自己的聊天機器人,而免費用戶也可以使用別人設計好的機器人,完成特定需求的任務或工作。

每個 GPTs 其實只能完成一個小小任務,沒辦法做複雜的流程控制,但可以從單功能變成多功能的複合模型、或是複合流程等。尹相志建議:「我們可以先設定他的功能,例如某個 GPTs 它有五個功能,那可以在一開始就先判斷使用者是需要哪一個功能,就走不同的流程。」


 

以偽代碼設計 ChatGPT 資料整理工具

另外,可以參考尹相志論文選題的影片,以偽代碼的設計流程,協助研究者尋找題目缺口,尹相志亦將過往學習的「科學方法精神」,用得淋漓盡致。以醫學研究的論文題目發想為例,當時的測試流程:
 

  1. 地毯式盤查--先讓 GPTs 去某一個醫療期刊抓了一個主題的30篇相關論文。
  2. 要求閱讀--需特別下指令要求它一篇一篇讀完,避免杜撰或幻覺內容。
  3. 根據主題相似性將內容區分--要求它列出確切群數,以及哪一篇論文屬哪一群。
  4. 要求閱讀分群與提供題目缺口--再請它閱讀完畢每一群中的內容,並提供這一群的中數,然後告訴我這一群裡面的論文裡面缺了什麼角度。
  5. 針對題目缺口評分--列出空缺的部分都是潛在研究主題,請它按照學術價值、執行難易度、或可能失敗風險等打分數,最後便能做出決定。



不過,談到 LLM 生成內容的核實問題,尹相志坦言 LLM 的「幻覺」(hallucination)確實還是很難解決。

根據哈茲卡·薩吉德整理,幻覺主要來自過度擬合、編碼和解碼錯誤、訓練偏差等因素,造成生成的內容在語法和語義上都是正確的,但與現實脫節,並且基於錯誤的假設,例如杜撰非事實的內容。但有一些小細節可以注意,例如:

ChatGPT 如果真的是在抓資料的時候,它會顯示正在抓取中的提示語句,若是真的有在讀一篇 PDF,它也會顯示正在讀取的提示語句。如果你發現根本沒有顯示就給你答案,那擺明就是騙人的。

此外,幻覺出現的時候,它的論文 DOI 編號可能都是1234567,那個大概也是騙人的。在產出之後要設檢查機制,你可以另外設檢查指令告訴 GPT「請告訴我理由以及標註資料來源出處」,它會比較難騙你,因為騙你的成本變很高,但若你沒有任何的檢查機制,它生成幻覺的可能性就會更高。


 

AI 的「隨機性」與不一樣的工作流

自然語言將是最重要的程式語言。AI 的理解能力,除了技術之餘,更著重在人與 AI 的互動語言,尹相志表示人與 LLM 的互動仍存在理解落差,當「文生文」都存一定變數時,「文生圖」所帶來的巨大落差更是明顯。

舉知名的文生圖軟體 Midjourney 為例,當使用者需要生成心中理想的圖片意象時,其提示詞主要是由「一堆逗號、與單字元的堆疊」而成,尹相志認為, Midjourney 雖然圖片很精緻,但其實根本不懂句子,「這已經又變成某一種新的語言、或者指令(而非純粹的自然語言),倘若又回到『精準控制』時,就比較不是我期待的方向。」 


尹相志認為,AI 迷人之處在於他的「隨機性」,像是 AI 環境的創作概念就跟過去不太一樣,以影片創作為例,過往無論是視覺設計或鏡頭手法,通常是導演腦中已有明確的想法,接著由人去高度控制工具如攝影機、燈光等進行拍攝。

而生程式AI的意義在於它有大量的「隨機性」和「不可控性」,當你越努力想要控制他,其實他就是越難被控制,越想要做到精細的調整,可能只會把自己困得更慘。

尹相志說:「也是這樣的隨機力量,讓人們發現有時候我們腦中想好的東西未必是最佳解。而且我們過去的美學經驗會困住我們,我們容易在一個比較固定的範圍內探索,可是事實上美這種事情沒有邊界,那因為 AI 的隨機性,反而跑出一些很有趣、很神奇的東西。」


 

未來產業方向

AI 的多工特質,使中小型企業的韌性更強。生成式 AI 的職場時代,讓個體的靈活性、生產力、應用力都快速提升,尹相志認為,與以往大型企業相比,中小微型企業的能供性將大幅提升,對產業環境而言,「並不是 AI 去替代掉的人,而是一個人帶著一堆 AI 可以替代一群人。」

另一方面,尹相志說:「可能也有一些人像我一樣,突然覺得生命能做的事情多了很多,他可能也不甘於待在原來大型企業,便走入中小微型企業」,這將改變以往小微企業不被市場擺在第一位的刻板印象。 


第二,大型語言模型的出現,讓今後網站只需要透過 API,很容易就能變成多國語言,尹相志認為「只要不是 face to face 的溝通,LLM 應該都可以解決掉所有的語言溝通問題,跨國型的企業導入成本將變得更低」,以往臺灣中小企業面對所謂大型企業時,容易被「凹」要客製化,要做各種調整,結果做企業的案子錢很多,但也被客製化都燒光了。

尹相志預測「倘若將來中小微型企業為主力,大家都不會有太大的談判籌碼(bargaining power),就會乖乖地根據你給的共通功能來做事,所以比較重要的是:未來在需求蒐集跟功能設計上,需要開始往共同需求,跨國跨文化需求著手,我覺得這一點很重要,因為你已經可以做跨國的生意。」


因此,我們會需要一個更具「抽象化」的能力。尹相志說,以前我們可能走的是專業分工、精準切割,你專門做好你要負責的事情就好。但生程式 AI 的出現讓他看見一個趨勢,如今未必再是精準切割,而是要把好幾本不一樣的書,找出他們共同的模式,共同的抽象化。

就像 ChatGPT 把所有語言都變成一種形式,用來預測下一個字,那這個就是一個很厲害的抽象化,當一次抽象化完成後,就可以一次解決這一類(文字互動)的問題。尹相志補充:「所以其實對於生成式AI來講,不是把問題越切越細,而是要找到共通性,一次性地去解決它,這個思路是不太一樣的。」


最後,關於社會很關心的取代問題,尹相志認為,某些專業領域,像是「品味素養」(sense)的掌握,AI 還未必完善。AI 在生成具有敘事性的分鏡腳本上,仍不及具備專業訓練的導演等製作者。

尹相志說,現在的工具要幫你做自動分鏡,分出來的東西都不太理想,甚至根本把故事走向「搞歪掉了」,而這一塊的專業知識,例如導演受到的專業訓練、和美學素養,恐怕還不是生成式 AI 能輕易遞補的。

然而,AI 在此處的幫助是降低「啟動成本」,在創意發想階段,藉由 AI 的快速生成方便導演與金主們溝通,使構想可視化,尹相志說:「讓溝通誤解的疼痛感降低,這件事情是比較重要的。」

相關觀點文章推薦
  • When AI Meets Packaging Design: Going Deeper and Further Than You Imagine – An Interview with Iris Lee

    • 設計與科技
    • 專家訪談
  • Design from an Economic Perspective: Exploring Design Thinking Through Economics – An Interview with Jerry Wang

    • 設計與科技
    • 專家訪談
  • Industrial Design in the Digital Age: Non-Stop Learning and Integration—Exclusive Interview with Yi Wei-Shen

    • 設計與科技
    • 專家訪談