產生自訂資料
這一頁的目標不是檢查每一行 console log,而是幫你判斷「資料有沒有成功生成」以及「生成後我該看哪幾個地方」。
先決定你要改哪一層
如果你現在要自訂情境,先用下面這個簡單判斷:
- 只想換產業 / use case:不用改 script 原始碼,改輸入值就好
- 想重新建整套 PoC:跑
author_rebuild_custom_poc.py - 只想先看新資料長什麼樣子:跑
author_generate_custom_data.py
你實際會動到哪些 script
大多數情況下,你只需要操作這兩支:
scripts/author_rebuild_custom_poc.pyscripts/author_generate_custom_data.py
它們的分工很簡單:
| script | 什麼時候用 | 會做什麼 |
|---|---|---|
author_rebuild_custom_poc.py |
你要重建完整 PoC 或切換 prepare 路徑 | 轉到對應 prepare 路徑,重跑資料、資料附錄、Search、agent |
author_generate_custom_data.py |
你只想先生成新的資料與文件 | 只產生新的 data folder,不重建後面資源 |
author_rebuild_custom_poc.py 會把你提供的 --industry、--usecase、--size 往下傳給現有 prepare pipeline,所以第一次使用時,直接改公開入口的執行參數通常最省事。
執行 AI 產生器
在 .env 設定完成後,產生客戶專屬資料:
| 旗標 | 用途 |
|---|---|
--clean |
重設資料附錄產物(切換情境時必要) |
替代方式:內嵌參數
直接在命令列覆蓋 .env 的設定:
python scripts/author_rebuild_custom_poc.py \
--industry "Insurance" \
--usecase "Property insurance with claims processing and policy management"
如果你只想重跑資料生成
python scripts/author_generate_custom_data.py \
--industry "Insurance" \
--usecase "Property insurance with claims processing and policy management" \
--size small
這種做法適合下面兩種情況:
- 你想先看 AI 生成的資料品質
- 你還沒決定要不要把這組資料正式建進資料附錄 / Search / agent
如果你是第一次自訂,建議直接用哪個?
第一次使用時,建議直接用這個:
python scripts/author_rebuild_custom_poc.py \
--industry "Your Industry" \
--usecase "Your use case description" \
--size small
因為這樣最不容易漏掉後面的步驟。
產生流程
第一次跑時,你只要確認三件事:
- 有沒有成功生成 ontology、CSV、PDF 與 sample questions
- 最後有沒有輸出一個新的
data/...目錄 sample_questions.txt是否存在
完整 console 輸出參考
============================================================
Generating Custom Data with AI
============================================================
Industry: Insurance
Use Case: Property insurance with claims processing and policy management
[1/4] Generating ontology configuration...
→ Analyzing use case for entities and relationships
→ Created: Policies, Claims, Customers, Agents
→ Defined: 6 relationships, 4 business rules
✓ ontology_config.json
[2/4] Generating structured data (CSV)...
→ policies.csv (16 rows) — Policy details, coverage, premiums
→ claims.csv (40 rows) — Claim status, amounts, dates
→ customers.csv (20 rows) — Policyholder information
→ agents.csv (8 rows) — Agent assignments
✓ 4 CSV files generated
[3/4] Generating documents (PDF)...
→ claims_process.pdf — How to file and process claims
→ coverage_guide.pdf — Policy coverage explanations
→ underwriting_policy.pdf — Risk assessment guidelines
✓ 3 documents generated
[4/4] 產生示範問題...
→ 15 題涵蓋資料、文件與混合情境的示範問題
✓ sample_questions.txt
============================================================
Data generated: data/20260202_143022_insurance/
============================================================
檢視產生的內容
生成完成後,先做最實用的確認:到底生成了哪些檔案,以及後面可以拿什麼問題來測。
範例問題(保險案例)
你大致會看到三類問題。這一段最重要的價值,是幫你判斷生成結果有沒有同時涵蓋資料、文件和混合問法:
- 結構化資料問題:目前有多少件未結案理賠、這個月理賠總金額是多少、哪位 agent 管理最多保單
- 文件問題:房屋保險理賠流程是什麼、標準住宅保單涵蓋哪些內容、高風險物件的核保條件是什麼
- 混合問題:哪些未結案理賠快接近 SLA 截止時間、目前是否有理賠項目超出標準保單範圍
預期輸出
完整建置約需 5 分鐘。
你不需要逐行比對;只要確認下面四個階段都有成功標記即可:
- AI 資料有生成
- 資料附錄工作區有建立
- 文件有上傳到 Search
- Agent 有建立
完整 build 輸出參考
============================================================
Building Solution: Insurance
============================================================
[01a/07] Generating AI data...
✓ Ontology, CSVs, PDFs, and questions generated
[02/07] Setting up data workspace...
✓ Cleaned previous artifacts
✓ Lakehouse: iqworkshop_lakehouse
✓ Warehouse: iqworkshop_warehouse
[03/07] Loading data into the data workspace...
✓ policies.csv → 16 rows
✓ claims.csv → 40 rows
✓ customers.csv → 20 rows
✓ agents.csv → 8 rows
[04/07] Generating NL2SQL prompt...
✓ Schema prompt created for insurance domain
[05/07] Creating data query agent...
✓ Agent: data-agent-insurance
[06/07] Uploading documents to AI Search...
✓ 3 documents → 24 chunks indexed
[07/07] Creating Orchestrator Agent...
✓ Agent: insurance-multi-agent
============================================================
Build complete! Ready for customer PoC.
============================================================
疑難排解
AI 產生逾時
- 檢查你的網路連線
- 嘗試使用
--size small加快產生速度 - 確認 Azure AI Services 配額
--clean 時出現資料附錄錯誤
- 確認資料工作區 ID 設定正確
- 確認你對工作區具備可建立與清理資料附錄產物的權限
- 等待一分鐘後重試(資料附錄操作可能較慢)
我看到很多輸出,但不確定算不算成功
- 先看最後是否有新的
data/<timestamp>_<scenario>/ - 再看
config/sample_questions.txt是否存在 - 如果你跑的是完整 build,再看最後是否有
Build complete!類似成功訊息