當然可以實驗對岸的模型，但有幾考量不會這麼作： 1. 一是這個是 Google DevFest 的場子，我想實驗看看 Google Gemma 家族的模型 2. 對岸模型就算洗好了，在台灣很多落地場景是不能被接受的，這個就請再自行 google 原因；但如果只是為了學術研究可以去實驗 3. 對岸模型深深寫入的價值觀和血統是難以撼動的，為了效率我也不想再嘗試

純濃

純濃燕麥當勞

回覆 Liang-Hsun Huang

5 個月前

有看到你發的鄉民LLM，非常適合我

Liang-Hsun Huang

回覆純濃燕麥當勞

5 個月前

Have fun, but don't hurt people

純濃

純濃燕麥當勞

回覆 Liang-Hsun Huang

5 個月前

抱歉我右手的邪王炎殺黑龍波已經控制不住了

林

林 Jay

回覆 Liang-Hsun Huang

5 個月前

感謝詳細分享，這樣選 Gemma 的考量很清楚，在 DevFest 場合用 Google 自家模型也很合理，而且你提到的台灣落地場景和價值觀問題也滿有共鳴的另外也很好奇請教，以現在 gemma-3-270m 的訓練流程來看，你覺得如果換成其他開源模型會在哪些段落最需要重新調整?

Liang-Hsun Huang

回覆林 Jay

5 個月前

這很看你的場景，到底是要做通用能力，還是只是下游任務。先假設你說的是下游任務，如果換作其它模型，假設你已經評完繁體中文能力、價值觀...等，那就是要調整超參和資料量，因為一來有可能你的模型參數量大小不同，現在硬體 VRAM 可以接受的 lr, global_batch_size, ...etc 需要調整，但這個問題太廣了，也難以一句話全包

Lulu

#3樓

5 個月前

DevFest 我有去，剛好有聽到這一場，講者講得很好，感謝你的整理! 我會分享給更多人

Amy233

#4樓

5 個月前

最近剛好想嘗試自己 train，很棒的分享

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片