實測經驗
LLM/SLM

RAG 落地血淚史

CH
Chi
發布於: 6 個月前
376
5

留言區

排序
周大
6 個月前
2024上半年有試過RAG,主要也是用langchain開發。 當時是用著作權法、民法、專利法、勞動基準法再加上100個法院判例實作。但考量到資安問題,公司內部文件不能用ChatGPT這類LLM來做測試,所以後來是使用公開的法律與判決文件來測試,而且法律文件通常比較有邏輯與關聯性,如果這個都做不好,其他文件就更難了。中間也有做過文本的finetune、也有做過embedding的finetune...效果也都不好 xD RAG不只有技術問題,文本之間的前後關聯性、不同文本之間的關聯性也很難處理。比如一個法院判決可能就會涉及三、四個以上的法規條文、或是同一個法規中前後條文也會有關聯。 如何串聯所有法規條文之間的關聯性,這一定需要非常大量的法院判決文本進行文本訓練。 目前是覺得在企業裡,使用結構化資料儲存的關聯式或noSQL資料庫系統,比如ERP、CRM、系統日誌...等等,會比較有機會可以讓RAG落地,只要能解決地端LLM的幻覺 xD
JO
JoyceCloud
回覆 周大可
6 個月前
現在有非常多 AI 新創做法律領域, 國內外都很多, 之後應該會很捲
CH
Chi
回覆 周大可
6 個月前
我也有用法院判例跟法條做過 RAG,也是在去年上半年,哈哈 跟你一樣初始的效果都不好,與要去微調,當初試了一下就沒有繼續了, 你最後做得如何?
周大
周大可
回覆 Chi
6 個月前
後來就沒有後來了,因為資料要整理成結構化文本(比如markdown),又需要做內容校正,沒有人要做這件事 xD
CH
Chi
L3
回覆 周大可
6 個月前
哈哈 水很深,跟樓下講得一樣,是一整家新創在做的事XD
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片