生成式人工智能的不確定性會給軟件開發帶來麻煩
神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。
編者按:鑒于人工智能寫代碼已經非常溜了,你很容易會產生這樣的想法,既然臟累活都是人工智能模型干的,那只關注市場需求和商業模式就行了。錯,生成式人工智能天生具有不確定性,這個坑可得注意了。文章來自編譯。
在我們這里,做的每件事背后都有一個基本循環:寫作->開發->重復。開發會讓你接觸到以前隱藏的世界。寫作能幫你找到一種精確、簡潔的方式來表達你知道什么以及為什么。這個循環未必是線性的——有時候我們會從開發開始,然后轉向寫作,有時候我們會先從寫作開始——但我們認為,這種做法確實帶來了一種特別有效的創造新事物的手段。
本文深入闡述了用AI開發產品的方式,為什么新的AI產品的關鍵風險是可行性,以及如何通過快速實驗來應對這些風險。
當我開發第一個AI項目時,所采用的方法跟過去開發產品是一樣的:明確一個問題,規劃解決方案,構建最小可行產品(MVP),然后進行迭代。這是一種相當直白的軟件驅動法:快速開發,測試,學習,然后改進。
但是,這種方法并沒有奏效——于是我自問:用AI開發跟傳統軟件開發究竟有何不同呢?
我加入公司的時候是懷揣著一個很有野心的目標的:在三個月內打造九款產品——也就是每10天打造一個項目。我的第一個項目Mindtune是傳統廣告技術和社交媒體算法的替代品,用AI驅動的。我的假設是,大家對社交媒體推送那些公式化的、冷漠的內容已經厭倦了,而AI可以提供更相關、更個性化體驗的機會。
我做Mindtune的時候就考慮到了需求驗證,因為傳統軟件項目這一塊往往做不好。你得做出登錄頁面、跟潛在客戶交流、分析競爭對手,然后才會投入資源打造產品。創始人長期以來一直都是按這個模板走的,就好象是一種條件反射。我們未必會停下來問問自己打造這個產品是否有可能?
用人工智能開發需要我們打破慣例,用不同的方式去做。人工智能產品帶來了一系列的獨特風險,如果你不了解這些風險,就肯定會犯錯誤。
在做Mindtune的過程中,我識別出了三種風險模式,這些模式幫助我準確了解自己承擔的風險類型,更重要的是,讓我了解是什么決定了它是否成功。我會深入探討其中的每一種風險、它們之間的關系以及人工智能是如何顛覆了傳統的初創企業“風險鏈”的。我希望創始人和開發者能夠更好地了解自己想法存在什么風險,以及如何最好地化解這些風險,從而避免在創意迷宮中走錯路。
▍初創企業風險鏈
任何初創企業都會涉及到三種風險:可行性(feasibility)、價值以及生存力(viability)。
1.可行性風險:是不是確實可以開發出來?這屬于典型的工程挑戰。比方說,SpaceX在開發可重復使用的自著陸火箭時就面臨可行性風險。
2.價值風險:用戶從中能否獲得價值?這是產品市場匹配的核心。Airbnb就是價值風險的一個很好例子——大多數人最初認為這個想法很荒謬,認為沒有人愿意住在陌生人的家里。
3.生存風險:我們自己能否從中獲取價值?眾所周知,Facebook與Google早期就面臨生存風險。他們知道自己的產品深受人們喜愛,但需要時間和實驗才能找到可持續的商業模式。
這三種風險的相互作用方式至關重要。可以把它們看作一個鏈條:可行性→價值→生存力。如果產品技術上不可行,那其他兩種風險就不重要了。如果可行但沒價值,你又會陷入困境。而就算用戶喜歡你的產品,你還是得想辦法從中賺錢。
這三種風險可不是按順序出現的;每種風險的大小都會因產品類型而異。
傳統軟件的可行性風險一般都不高。Facebook的第一版開發并未涉及任何突破性的技術飛躍。馬克·扎克伯格是在哈佛的宿舍里寫出代碼的。真正的挑戰在于價值和生存力風險:大家會用嗎?它能否成為一項盈利業務?
相比之下,深度科技——基因療法、聚變反應堆和自動化通用智能等項目,它們是將全新的技術推向市場。這類創新有明確的需求和商業模式(比方說,一種治療現有疾病的藥物),因此價值和生存力風險較低。其風險在于可行性:深度科技初創企業要冒著風險,打造一些他們不能100%確定是否可行的東西。
我以開始覺得Mindtune可能會像軟件產品,可行性風險較低,價值和生存力階段的障礙會大一些。但從我的經驗來看,人工智能會給可行性和價值帶來獨特挑戰,需要新的辦法應對。
首先,風險模式不一樣。人工智能初創企業主要分為兩類:一種是深度人工智能初創企業,一種是應用人工智能初創企業。
深度人工智能初創企業做的是基礎模型或硬件,比方說Groq的芯片與Figure的人形機器人。其最大的風險是可行性。這些公司通常從事前沿研究,其所追求的突破有無可能實現未必總是很清楚。這屬于高風險、高回報的領域。
Sparkle和Lex等應用型人工智能初創企業則是利用OpenAI等公司的現有模型和API。其關鍵風險在于價值。應用型人工智能公司需要證明自己所使用的AI能創造價值,而且比非AI解決方案更好、更快或更高效。此外這類企業還存在可行性風險:AI模型未必不總能按照預期的方式運行,需要更多的思考和改進才能獲得良好結果。
Mindtune是一款應用型人工智能產品:它利用了已有的人工智能模型來提供更個性化的社交媒體信息流。我相信它的價值——用戶對不同的社交媒體體驗是歡迎的——而且這種商業模式已經得到現有產品的驗證。但我現在越想越覺得我錯過了一個重要步驟:那就是沒有把這項技術的可行性考慮清楚。我一度認為,就因為我可以設計人工智能模型來提供結果,所以就等同于可始終如一地獲得正確結果。我低估了用人工智能來開發的可行性風險,甚至連應用人工智能的可行性風險也沒考慮到。
▍人工智能獨特的可行性挑戰
傳統軟件從根本上來說是確定性的:如果邏輯和參數設置正確,代碼就會產生可預測的輸出。
生成式人工智能有著本質上的隨機性:結果未必是一致的,輸出質量可能會因輸入數據和模型本身的細微差別而波動。所以你得不斷測試,好確定結果是否可靠,且對用戶來說足夠有價值。因此,傳統的工程直覺并不完全適用。
慢慢地,你會意識到人工智能模型能做什么、不能做什么,但這些直覺沒有像對傳統軟件的直覺那么準確。就算是經驗豐富的人工智能工程師也會遇到意想不到的結果。技術可行性風險比傳統軟件更大,因為模型在測試過程中可能會給你帶來驚喜,或者驚嚇。但這種風險不像深度科技那樣令人生畏,深度科技可能需要基礎科學上的突破才能向前發展。相反,生成式人工智能的風險介于軟件和深度科技之間——可行但不可預測。
由于這種不可預測性,跟生成式人工智能打交道需要更多的實驗性方法。傳統的軟件開發,精心打造的第一版可能需要一些細微調整——改改按鈕位置,調整一下文案——而不是徹底改造。可是,對于生成式人工智能來說,第一版可能就需要不斷“調整”了——調整提示、合并其他數據、調整參數——為的是提高可靠性,增加用戶價值。而且每次調整都會讓結果略微有所改變,所以不斷迭代、不斷測試對于獲得期望的結果至關重要。
我在做Mindtune的時候,一開始先是開發軟件體驗(線框、登錄等),然后測試模型(GPT-4o、Claude 3.5 Sonnet、Gemini Pro 1.5和Llama 3.2),看看能不能給個性化廣告生成足夠好的內容。這是錯的:評估模型輸出的質量時我發現返回的結果不一致。其實我應該先看看輸出的結果,然后再去折騰軟件組件,因為最終決定項目可行性的是底層模型的質量,而不是位于其上的軟件。
這個迭代過程還需要用直覺去判斷什么時候該停止或做出調整。在發揮模型能力與識別模型上限之間有著微妙的平衡。有時候,盡管已經反復調整過了,但輸出可能永遠也無法達到可接受的質量,這時候你就得放棄了。或者,你可能會覺得再迭代幾次就可以得到想要的結果。
不過,這個階段也有玄機。有時候,應用人工智能缺乏可行性表明這個項目不值得去做。但有時候,盡管可行性較低,可你仍確信是有價值的——因此不該放棄這個項目,而是應該換個做法。你可能一開始以為自己做的是一個應用人工智能項目,然后意識到自己其實在做的是深度人工智能,而且為了讓項目可行,你得進入研究模式,去構建自己的模型。這樣一來可行性風險會增加,但項目價值也可能變大,因此更值得去做了。
▍了解風險,找到方向
是,不管做什么你都得了解風險狀況,但這一點對于人工智能來說尤其重要。如果你知道所需承擔風險的性質,就可以確定該優先分配資源和精力到什么地方。這還會迫使你在每個階段提出合適的問題:我們能做這個嗎?別人會用嗎?只有這兩個問題搞定后,才可以提出能否圍繞著它建立可持續發展的業務這個問題。
不管是應用型還是深度型的人工智能初創企業,其運營的復雜程度與傳統軟件產品都不一樣,需要更深入了解風險的相關性,并愿意去探索未知領域。很多開發者以為用生成式人工智能API就可以消除技術風險,但那只是多套了“一個殼”而已,別自欺欺人了。那怕使用的是現有模型,也需要進行大量實驗。
低估這種技術風險會導致浪費時間浪費資源。你很容易會產生這樣的想法,既然臟累活都是人工智能模型干的,那只關注市場需求和商業模式就行了。但實際上,確保人工智能按需要運行是重大挑戰之一。實現可靠和有價值的結果需要的不僅僅是接入API,還需要你不斷調整、測試和深入了解模型的行為。
本文來源:36氪
文章轉載于其他網絡,如有侵權請聯系我們及時刪除!