我之前碰到金融業的案子，因為涉及個資，根本不可能把資料丟到雲端，所以只能端上跑，但端上 inference 的痛點是要支援各種手機型號，低階機種一下子就跑不動，而且低端手機還不少。最後我們是用 distillation + quantization 壓小模型，推給端上跑 baseline，再把 "需要高準確度" 的 case 打回雲端補強

純濃

純濃燕麥當勞

回覆吳啟文

7 個月前

感謝分享資安問題我還沒考慮到

Scott

回覆純濃燕麥當勞

7 個月前

維護和更新模型是 Operation 的考量，自動化程度越高，就越不覺得麻煩。雲端 API 延遲通常不會太大問題，可以用非同步或者 UX 影響使用者經驗。 API 費用就得計算功能價值是不是符合成本。通常考慮雲端或者地端甚至邊端的考量會: 1. 資料隱私: 資料規範是否只能在邊端處理，或者可以跨國傳送。 2. 流量和系統負擔: 通常簡單的任務，例如是中國菜還是日本菜的分類，可以考慮在邊端直接處理。而這類簡單的模型，通常也不太會需要頻繁更新模型。而影音類的資料傳送，即使是串流，網路傳送還是不小的負擔，也會考慮在邊端處理。

純濃

純濃燕麥當勞

回覆 Scott

7 個月前

謝回復

Kuanwei

回覆純濃燕麥當勞

7 個月前

你可以從上面的留言看出我不是專業的。所以我就是純聊天。 gpt 給出的雲端延遲數據最多百ms，我感覺是使用者能接受的。所以還是看模型多大？多參數的模型，cpu 或 gpu消耗量大，aws 收的錢就多了。

純濃

純濃燕麥當勞

回覆 Kuanwei

7 個月前

你那邊側過的模型多大呀? 我自己體感好久, 可能我比較敏感!?

純濃

純濃燕麥當勞

回覆 Kuanwei

7 個月前

那我去 tag 上面的人

Scott

#2樓

7 個月前

如果提供多點資訊或許會比較容易回答。例如開發安卓手機軟體的時候，大多情況都是在處理 Event 的流程。比較難想像用繁中資料訓練模型的關聯以及要處理的分類問題。

Kuanwei

回覆 Scott

7 個月前

啊! 好的，抱歉原問題的說明不清楚: 應用場景是，軟體會記錄使用者對餐廳的評價，希望能透過使用者繁體中文的文字評價，去分類出這家餐廳是屬於什麼樣的 cuisine。所以輸入是文字，輸出也是文字。因為這是單純的工作，所以資料庫環境想選擇手機本地的 sqlite ，延遲比較低。資料集是 AI 生成的一些結果 {繁中評論: ... , cuisine: ... } ，聽說需要拿這些資料去餵給 BERT 模型，達成 fine tuning 這樣。

Scott

回覆 Kuanwei

7 個月前

單純直接分類的部分，的確直接在手機端完成會比較迅速。這時候，除了輕量化之外，還可以把模參數凍結住降低系統負擔。微調的部分還是會建議送到後端，讓多數的訊息維持模型的準確。除了效能之外，還必須考量到模型遺忘的問題。例如 10 天台菜， 1 天義大利麵，久了之後，其實會認不出義大利麵。另外，模型的更新也會是問題。因為大量檔案，在 store 上通常得額外申請檢核，會影響 App 新版釋出時間。例如，Apple App Store 模型檔案不是單純的資料（如 .tflite 或 .mlmodel），可能會被拒絕上架。而 Google Play 提供官方的Play Feature Delivery 機制，倒是可以實現更快速的模型更新。總而言之，這些是通常訓練和預測還留在後端的原因之。

純濃

純濃燕麥當勞

回覆 Scott

7 個月前

哈囉，我下面有其他想討論的東西，你有其他的想法嗎

Kuanwei

回覆 Scott

7 個月前

原來有這麼多要考慮的面向，很感謝您詳細的文章指引。我會去好好的根據您提到的觀念 google 一下，充分了解這些資訊，感謝。

Kuanwei

回覆 Kuanwei

7 個月前