看完整個 repo 對資料爬取運作有初步理解,有些疑問:
運作理解:
專案(如 use-threads.ts)透過 .env 中 GCF URL(例如 CLOUD_FUNCTION_USERNAME_URL)呼叫外部 GCF 執行爬取。核心爬蟲邏輯應在外部 GCF?
疑問:
請問執行爬取的 GCF 程式碼,是否存放於他處(如其他庫或文件)?或此部分爬蟲程式碼不打算開放,期望使用者自行實現?
會來看此 repo 是因為我也正在寫一個 Threads 爬蟲,但是正在考慮 Meta 可能將來會變動 div 結構,想看看有沒有更 Robust 的寫法可以參考。