多模態技術正在改變垂直AI應用??
不久前,Bessemer提出了一個很有價值的觀點:
垂直AI軟件將成為未來。
說起Bessemer,熟悉SaaS行業的人可能并不陌生。它是美國SaaS領域最專業的投資機構之一,在過去10年投資了200多家SaaS企業。
為了更好講清楚垂直AI軟件的價值,Bessemer發布了垂直AI路線圖,總共四個部分。本文是Bessemer的垂直AI路線圖的第二篇文章。在這篇文章中,Bessemer會分享其對以下問題的思考:
多模態的垂直AI應用的落地究竟有哪些影響?現在基于多模態技術的垂直AI應用又有著哪些不錯的落地案例?
01 多模態技術正在改變垂直AI應用??
在過去12個月中,全球出現了許多新模型,它們在理解語境、減少幻覺以及整體推理能力方面進步很大。尤其在語音識別、圖像處理和語音生成等方面,AI的能力正在逐漸接近人類。這為AI解鎖了很多新的應用場景。
▍語音功能
在對話語音領域,模型發展取得了快速進展:語音轉文本模型 (自動語音識別) 和文本轉語音模型 (生 成語音) 。
目前,市場有數十家公司提供基于這些模型的語音服務,這推動了大量新的語音AI應用程序的出現。
這些應用程序大都依賴于所謂的“級聯架構”,即先將語音轉錄為文本,然后將該文本輸入到LLM中以生成響應,最后將文本輸出反饋到生成語音模型中以產生音頻響應。直到最近,這一直是構建對話語音應用程序的最佳方式。然而,這種方法有一些缺點,比如它會有一定的延遲,同時失去用戶對話中表達的情感。
而現在,新一代語音原生模型已經發布了,包括OpenAI的Realtime API (它支持通過GPT-4o進行語音對語音交互) ,以及Kyutai的Moshi等多個開源項目。
與之前的模型相比,語音原生模型的延遲明顯降低 (<500毫秒) 。它們還可以捕捉更多來自用戶的語境 (即語氣、情緒、情感等) ,并生成反映該語境的響應,使交流感覺更自然,并更有可能滿足用戶的需求。
在未來幾年內,隨著越來越多的對話式語音應用基于這些全新改進的模型構建,我們預計對話式語音應用的速度和質量將大幅提升。
▍語音應用案例
現在語音轉錄的應用已經非常成熟了,端到端對話語音代理也取得了顯著的早期進展,我們認為這是語音AI解決方案的未來方向。接下來,我們就來看看4個AI語音的應用案例。
1)轉錄功能讓用戶有更多時間完成工作流程中的后續步驟 :
Bessemer投資組合公司Abridge率先推出了一款一流的醫療轉錄應用程序,該應用程序可以根據臨床對話生成醫療記錄,并確定適當的后續行動,包括購買處方藥、專家預約等,醫生可以把更多注意力轉移到患者護理上。
另一個很好的例子是Rillavoice,這家公司將人工智能引入了家庭服務垂直領域。Rillavoice的轉錄應用程序記錄銷售人員和客戶之間的對話,用于培訓目的,這樣銷售經理仍然可以提供有價值的指導反饋,而無需進行非常耗時的面對面“陪同”。
2)用AI來承接銷售線索:
到目前為止,我們看到的端到端語音代理最引人注目的用例之一是入站銷售。在很多特定的垂直場景 (如家庭服務企業或汽車經銷商) 里,語音代理可以在下班后或其他銷售代表忙碌時接聽客戶電話,從而確保企業不會錯過有價值的潛在客戶。這些功能比之前的語音機器人更智能和高效,無需銷售的代表的參與。
3)AI客服提升客戶體驗 :
AI客服一直是應用比較多的場景。但許多用戶發現,早期的交互式語音應答(IVR)技術體驗并不好。事實證明,現代語音代理更有效。
因為傳統的IVR產品只能理解客戶對特定措辭的回應意圖,但現代語音代理不同,無論客戶如何提問或提出請求,現代語音代理都能提供正確的答案。這樣讓客服人員更有時間對應付復雜的客戶問題。
4)自動撥打外撥電話以增加漏斗頂端:
現在已經出現了多種解決方案來自動撥打銷售和招聘團隊的外撥電話。通常,語音代理使用客戶陳述的標準來識別最有潛力的銷售線索或候選人,對線索進行首次呼叫,然后將他們引導到與銷售人員或招聘人員的下一次會議。
讓人工智能接管外撥工作流程可以顯著增加可以聯系的線索數量,從而增加公司的漏斗頂端。隨著時間的流逝,銷售人員和招聘人員有更好的機會獲得最有潛力的線索。
唯一需要注意的事,有必要出臺相應的法規,規定AI只能向潛在客戶撥打電話,以避免AI銷售的濫用。
在所有語音用例中,我們預計低延遲和理解用戶的情緒和情感將成為一件很重要的事情。此外,由于應用場景的差異,AI語音解決方案在其他維度上也略有不同,例如實時協調跨多個底層模型的對話以優化成本和性能;支持全渠道通信、多種語言和實時翻譯。
在視覺方面,我們已經看到了GPT-4 with vision (GPT-4V) 等模型的發展,這些模型可以解釋圖像并回答有關圖像的問題,以及處理原始圖像和視頻的多模態模型。比如,谷歌的多模態模型Gemini 1.5 Pro已經可以理解圖像和視頻中的輸入。
我們預計,這些和類似的模型將繼續提高性能并降低成本——這對應用程序構建者來說是個好消息。
▍視覺和視頻的用例
垂直應用中視覺的應用案例通常分為以下四類:數據提取、視覺檢查、設計和視頻分析。雖然數據提取是迄今為止視覺模型最成熟的用例,但我們在其他領域也看到了新的應用進展:
1)從圖片、PDF或其他非結構化文檔的圖像中提取數據:
分析和處理當前的非結構化數據,AI可以減輕人類繁瑣的數據輸入任務程。例如,Raft針對貨運代理行業的平臺結合使用計算機視覺和LLM從PDF發票中提取關鍵信息,填充其客戶的企業資源規劃平臺 (ERP) ,并自動執行發票核對和準備海關申報單等下游任務。
2)提升目前人工檢查的效率 :
許多公司已經使用AI來幫助簡化人工檢查流程并更快地提供結果。比如,人工智能建筑平臺xBuild為住宅建筑和修復項目生成工作范圍包,然后與保險公司合作獲得報銷批準。xBuild使用受損屋頂的照片和房屋藍圖來生成報告,概述根據當地建筑規范將屋頂恢復到正常狀態所需的修復范圍。其他應用程序已使用人工智能和計算機視覺來自動化施工圖中的質量保證審查過程,幫助盡早發現錯誤,以防止后期施工過程中出現代價高昂的項目變更。
3)生成2D和3D設計 :
為建筑、工程和施工 (AEC) 行業服務的AI平臺數量急劇增加。一些公司正在使用AI進行可行性評估,將擬建場地 (建筑物、停車場等) 的視覺描述與相關供應成本相結合,根據后者的成本限制調整前者,反之亦然。
Snaptrude等其他解決方案可以創建建筑物的詳細3D設計圖像,接管通常由結構工程師完成的重復性工作,讓他們有時間專注于更高級別的設計工作。詳細產品和基礎設施設計的自動化不僅可以節省客戶寶貴的工程時間,還可以加強銷售提案并提高項目成功率。
4)視頻分析 :
生成和理解視頻的模型是視覺模型中最不成熟的,但它們正在迅速進步。
在對象跟蹤、分類甚至視頻內容的自然語言搜索方面,視頻理解模型已經變得相當強大。這些模型甚至有些已經完成商業化落地,比如用AI監控視頻源以發現制造或工業環境中出現的安全違規行為。
但考慮到視頻模型的進步的速度,未來幾年我們將看到更多令人印象深刻的AI應用,并擴展到更多的用例。尤其在機器人領域,視頻理解是機器人感知的關鍵組成部分。
在所有視覺用例中,創始人都應避免將復雜性誤認為價值。雖然AI解決方案總被認為應該應用在自動化特別復雜的工作流程中,但歸根到底,用戶價值還是看現有場景的工作流程適不適合自動化。
如果設計自動化解決方案需要與難以替代的核心系統 (如Revit) 進行繁瑣的集成,并且初始投資回報率較低,那么無論解決方案多么強大,都很難推動銷售和采用。早期公司應該從技術復雜程度較低、范圍較窄的產品開始,然后再從那里延伸。當然,最佳路徑會因行業和用例而異,但要牢記權衡利弊。
02 人工智能代理的前景
雖然早期的人工智能代理多少有些炒作的意味,但現在人工智能代理開始有一些真正的落地進展。隨著OpenAI o1模型的推出,代理能夠處理更多復雜的推理任務。
如今,代理在涉及重復任務和通信的文本、語音和視覺工作流中發揮著重要作用。但在未來一年,我們預計基于較新的推理模型構建的應用程序將會出現,并發揮AI代理的真正潛力:自主處理復雜的工作流。
1)銷售和營銷 :
許多公司都推出了AI代理,可以為銷售團隊尋找和聯系潛在客戶。這些代理的優點在于,它們能夠進行大量研究數據,來識別高質量的潛在客戶 (通過對目標公司、其員工和相關行業新聞進行詳細的網絡搜索) ,然后使用這些研究結果來撰寫相關且高度個性化的電子郵件。由于代理可以有效地執行工作中的研究和推廣部分,同時保持相對較高的質量,因此它會讓銷售人員將自己時間更多投入到跟蹤熱門銷售線索。
2)談判 :
AI代理在自動完成多方談判方面展示了不錯的前景。
Pactum等公司已經開發出能夠就供應鏈案例協商法律和商業條款的人工智能代理。Pactum的代理可以與供應商進行談判以優化交易條款。我們也看到其他垂直AI公司在銷售和促銷領域采取了類似的方法。在這里,代理根據既定標準與買家和供應商進行談判,例如批量購買的折扣或快速付款計劃。
3)調查 :
企業網絡安全團隊經常被大量安全警報壓得喘不過氣來,但現在有AI代理可以協助完成警報調查的初始階段。
這包括:從多個不同的系統收集有關事件的信息,研究可能涉及的惡意行為,總結事件并評估其嚴重程度。雖然大多數團隊傾向于使用代理來處理風險較低的工作流程,但很明顯,隨著時間的推移,更復雜的代理可以處理越來越多需要信息收集和綜合的工作流程。
我們相信,與不需要這些解決方案的解決方案相比,處理需要跨多種模式進行更復雜推理的任務和工作流程的代理將更有價值。
特別是,我們看到,通過巧妙的架構決策以及將正確的模型、反饋回路等拼接在一起以提供一致的結果,可以提高代理工作流程的性能。代理性能并不完全取決于問題中數據和計算的規模,因此對于早期創業公司來說,這是一個更具吸引力的機會。在所有情況下,鑒于底層模型的快速發展,在構建技術護城河和確保靈活性之間取得適當的平衡將是關鍵。
總的來說,越來越多垂直AI的創始人開始研究利用AI多模態能力,來解決更廣泛的實際任務。與文本一樣,語音和視覺的底層模型將日益商品化,使公司在強大的基礎模型之上構建應用程序更具可持續性。我們相信,這波垂直AI應用不僅會改變它們所服務的行業和垂直格局,也將從徹底改變我們工作和與世界互動的方式。
本文來源:36氪
文章轉載于其他網絡,如有侵權請聯系我們及時刪除!