來源:https://www.taigitv.org.tw/taigi-words
本辭庫的文字內容以 CC-BY-4.0 授權開放予公眾利用
這個複本的目的一方面是做備份,另一方面是讓重複利用變得更容易。
萬分感謝公視台語台對台語的貢獻,與慷慨的開放授權。
資料是從網頁 scrape 而來的。
讀音聲音檔目前沒有 scrape 下來。台羅應該就夠了。
資料檔在 ./data/scrape-<時間>.json,其中時間是我執行 scrape 完成的時間。
資料格式是 (用 TypeScript 敘述的話):
// 整個文件是 Word[]
interface Word {
id: number;
title: string;
pn: string[];
zh: string;
tags: Tag[];
}
interface Tag {
id: number;
title: string;
}用 Zod 敘述的話:
const tag = z.object({
id: z.number(),
title: z.string(),
});
const word = z.object({
id: z.number(),
title: z.string(),
pn: z.array(z.string()),
zh: z.string(),
tags: z.array(tags),
});
const 文件 = z.array(word);Scrape 下來的資料在 data/,為公視台語台以 CC-BY 4.0 授權的內容。JSON 版仍然為原授權的 CC-BY 4.0。
我的程式碼以 CC0 授權釋出,見 LICENSE。