Skip to content

kemdict/kemdict-data-pts-taigitv

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

公視「台語新詞辭庫」複本

來源:https://www.taigitv.org.tw/taigi-words

本辭庫的文字內容以 CC-BY-4.0 授權開放予公眾利用

這個複本的目的一方面是做備份,另一方面是讓重複利用變得更容易。

萬分感謝公視台語台對台語的貢獻,與慷慨的開放授權。

流程

資料是從網頁 scrape 而來的。

讀音聲音檔目前沒有 scrape 下來。台羅應該就夠了。

利用

資料檔在 ./data/scrape-<時間>.json,其中時間是我執行 scrape 完成的時間。

資料格式是 (用 TypeScript 敘述的話):

// 整個文件是 Word[]

interface Word {
  id: number;
  title: string;
  pn: string[];
  zh: string;
  tags: Tag[];
}

interface Tag {
  id: number;
  title: string;
}

用 Zod 敘述的話:

const tag = z.object({
  id: z.number(),
  title: z.string(),
});
const word = z.object({
  id: z.number(),
  title: z.string(),
  pn: z.array(z.string()),
  zh: z.string(),
  tags: z.array(tags),
});
const 文件 = z.array(word);

授權條款

Scrape 下來的資料在 data/,為公視台語台以 CC-BY 4.0 授權的內容。JSON 版仍然為原授權的 CC-BY 4.0。

我的程式碼以 CC0 授權釋出,見 LICENSE

About

公視台語台《台語新詞辭庫》的 JSON 複本 (CC-BY 4.0)

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors