加載中...
回覆區
排序
純濃
純濃燕麥當勞
#1樓
7 個月前
借串問
如果是手機端文字分類任務,你們會怎麼取捨雲端 inference vs 端上 inference
我覺得端上延遲低、隱私佳,但維護更新跟模型大小都好麻煩== 雲端則是要處理 API 延遲和費用
在實務專案裡大家是怎麼決定的呀?
吳啟
吳啟文
回覆 純濃燕麥當勞
7 個月前
我之前碰到金融業的案子,因為涉及個資,根本不可能把資料丟到雲端,所以只能端上跑,但端上 inference 的痛點是要支援各種手機型號,低階機種一下子就跑不動,而且低端手機還不少。
最後我們是用 distillation + quantization 壓小模型,推給端上跑 baseline,再把 "需要高準確度" 的 case 打回雲端補強
純濃
純濃燕麥當勞
回覆 吳啟文
7 個月前
感謝分享 資安問題我還沒考慮到
SC
Scott
回覆 純濃燕麥當勞
7 個月前
維護和更新模型是 Operation 的考量,自動化程度越高,就越不覺得麻煩。
雲端 API 延遲通常不會太大問題,可以用非同步或者 UX 影響使用者經驗。
API 費用就得計算功能價值是不是符合成本。
通常考慮雲端或者地端甚至邊端的考量會:
1. 資料隱私: 資料規範是否只能在邊端處理,或者可以跨國傳送。
2. 流量和系統負擔: 通常簡單的任務,例如是中國菜還是日本菜的分類,可以考慮在邊端直接處理。而這類簡單的模型,通常也不太會需要頻繁更新模型。而影音類的資料傳送,即使是串流,網路傳送還是不小的負擔,也會考慮在邊端處理。
純濃
純濃燕麥當勞
回覆 Scott
7 個月前
謝回復
KU
Kuanwei
回覆 純濃燕麥當勞
7 個月前
你可以從上面的留言看出我不是專業的。 所以我就是純聊天。
gpt 給出的雲端延遲數據最多百ms,我感覺是使用者能接受的。 所以還是看模型多大?
多參數的模型,cpu 或 gpu消耗量大,aws 收的錢就多了。
純濃
純濃燕麥當勞
回覆 Kuanwei
7 個月前
你那邊側過的模型多大呀? 我自己體感好久, 可能我比較敏感!?
純濃
純濃燕麥當勞
回覆 Kuanwei
7 個月前
那我去 tag 上面的人
SC
Scott
回覆 Kuanwei
7 個月前
單純直接分類的部分,的確直接在手機端完成會比較迅速。這時候,除了輕量化之外,還可以把模參數凍結住降低系統負擔。
微調的部分還是會建議送到後端,讓多數的訊息維持模型的準確。除了效能之外,還必須考量到模型遺忘的問題。
例如 10 天台菜, 1 天義大利麵,久了之後,其實會認不出義大利麵。
另外,模型的更新也會是問題。因為大量檔案,在 store 上通常得額外申請檢核,會影響 App 新版釋出時間。
例如,Apple App Store 模型檔案不是單純的資料(如 .tflite 或 .mlmodel),可能會被拒絕上架。而 Google Play 提供官方的Play Feature Delivery 機制,倒是可以實現更快速的模型更新。
總而言之,這些是通常訓練和預測還留在後端的原因之。
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片