2025 生成式AI:文字與圖像生成的原理與實務(期末專案)
這學期修了這堂課,期末要做一個簡單的有關生成式AI專案,
本來要做的是跟之前有發過跟大家討論的「Tainan Traveler:智慧旅遊規劃師」,
後來直接大改,改成跟卡牌類型相關的專案:
「將上傳的照片、技能描述,生成符合遊戲王風格的卡牌」
操作說明:
1. 輸入「卡片名字」、點選「選擇圖像」上傳照片
2. 點選「自動生成卡片屬性」
3. 生成完文字後,點選「生成圖像」
4. 生成完圖片後,點選「下載卡牌」
5. 最後就可以把生成出來的卡牌儲存到自己的手機裡頭
使用的模型:
gemini-2.5-flash-preview-09-2025
目的: 用來自動生成「卡片族群」、「卡片敘述/效果」。
使用原因: 模型支援多模態輸入,可以同時接收文字提示和上傳的圖片,並且能夠輸出結構化的 JSON 格式資料(透過 responseSchema),確保輸出的卡片族群、敘述、ATK 和 DEF 都是準確且可進行分析的格式。
gemini-2.5-flash-image-preview
目的: 生成風格轉換的圖像。
使用原因: 透過使用者上傳的圖片與技能敘述/效果,生成一個符合遊戲王風格的新圖像。
心得:
雖然這是一個很初階的專案,只用到了Gemini 3 pro,但在製作專案的期間,
真心可以覺得在 AI 的發展下,做專案的困難度和門檻都大幅度的降低了,
只要可以很確切地把問題和目標描述出來就可以透過模型的能力完成,
現在況且如此,未來一定會更加成熟與便利,樂觀其成。
未來的世界不可取代的能力可能就只剩下變成我們腦中無邊無際的想像力和點子了。

另外如果有對這個專案有什麼改進的想法也可以在底下留言,
因為轉變之後的風格其實也沒有很像遊戲王卡的風格,但那時候沒有太多的時間可以修改就直接交差出去了哈哈~
作者:小緯