RAG 落地血淚史

Chi

發布於: 6 個月前

376

加載中...

原始出處

https://blog.abdellatif.io/production-rag-processing-5m-documents

#評估方法

#框架與工具

留言區

排序

周大

周大可

#1樓

6 個月前

2024上半年有試過RAG，主要也是用langchain開發。當時是用著作權法、民法、專利法、勞動基準法再加上100個法院判例實作。但考量到資安問題，公司內部文件不能用ChatGPT這類LLM來做測試，所以後來是使用公開的法律與判決文件來測試，而且法律文件通常比較有邏輯與關聯性，如果這個都做不好，其他文件就更難了。中間也有做過文本的finetune、也有做過embedding的finetune...效果也都不好 xD RAG不只有技術問題，文本之間的前後關聯性、不同文本之間的關聯性也很難處理。比如一個法院判決可能就會涉及三、四個以上的法規條文、或是同一個法規中前後條文也會有關聯。如何串聯所有法規條文之間的關聯性，這一定需要非常大量的法院判決文本進行文本訓練。目前是覺得在企業裡，使用結構化資料儲存的關聯式或noSQL資料庫系統，比如ERP、CRM、系統日誌...等等，會比較有機會可以讓RAG落地，只要能解決地端LLM的幻覺 xD

JoyceCloud

回覆周大可

6 個月前

現在有非常多 AI 新創做法律領域，國內外都很多，之後應該會很捲

Chi

回覆周大可

6 個月前

我也有用法院判例跟法條做過 RAG，也是在去年上半年，哈哈跟你一樣初始的效果都不好，與要去微調，當初試了一下就沒有繼續了，你最後做得如何?

周大

周大可

回覆 Chi

6 個月前