實測經驗
LLM/SLM

Twinkle AI:從零開始到實戰-預訓練與應用心得分享

CH
Chi
發布於: 5 個月前
512
10
加載中...

留言區

排序
張家
5 個月前
坦白說我滿需要鍵盤俠回覆生成器 在PPT上跟人大戰,八卦版需要這種酷東西
林 Jay
#2
5 個月前
好奇當初為什麼選 Gemma,對岸的模型有試過嗎?
LI
Liang-Hsun Huang
回覆 林 Jay
5 個月前
當然可以實驗對岸的模型,但有幾考量不會這麼作: 1. 一是這個是 Google DevFest 的場子,我想實驗看看 Google Gemma 家族的模型 2. 對岸模型就算洗好了,在台灣很多落地場景是不能被接受的,這個就請再自行 google 原因;但如果只是為了學術研究可以去實驗 3. 對岸模型深深寫入的價值觀和血統是難以撼動的,為了效率我也不想再嘗試
純濃
純濃燕麥當勞
回覆 Liang-Hsun Huang
5 個月前
有看到你發的鄉民LLM,非常適合我
LI
Liang-Hsun Huang
L3
回覆 純濃燕麥當勞
5 個月前
Have fun, but don't hurt people
純濃
純濃燕麥當勞
L4
回覆 Liang-Hsun Huang
5 個月前
抱歉 我右手的邪王炎殺黑龍波已經控制不住了
林 Jay
回覆 Liang-Hsun Huang
5 個月前
感謝詳細分享,這樣選 Gemma 的考量很清楚,在 DevFest 場合用 Google 自家模型也很合理,而且你提到的台灣落地場景和價值觀問題也滿有共鳴的 另外也很好奇請教,以現在 gemma-3-270m 的訓練流程來看,你覺得如果換成其他開源模型會在哪些段落最需要重新調整?
LI
Liang-Hsun Huang
L3
回覆 林 Jay
5 個月前
這很看你的場景,到底是要做通用能力,還是只是下游任務。先假設你說的是下游任務,如果換作其它模型,假設你已經評完繁體中文能力、價值觀...等,那就是要調整超參和資料量,因為一來有可能你的模型參數量大小不同,現在硬體 VRAM 可以接受的 lr, global_batch_size, ...etc 需要調整,但這個問題太廣了,也難以一句話全包
LU
Lulu
#3
5 個月前
DevFest 我有去,剛好有聽到這一場,講者講得很好, 感謝你的整理! 我會分享給更多人
AM
Amy233
#4
5 個月前
最近剛好想嘗試自己 train,很棒的分享
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片