Skip to content

HTMLから記事本文や主要なテキストのみを抽出するコマンドラインのツールです。

License

Notifications You must be signed in to change notification settings

kokiito0926/justtext

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

justtext

justtextは、HTMLから記事本文や主要なテキストのみを抽出するコマンドラインのツールです。
ウェブサイトをクロールしたあとに、そのHTMLから記事本文や主要なテキストのみを抽出すると、大規模言語モデルに与えやすくなります。

インストール

$ npm install --global @kokiito0926/justtext

使用方法

curlなどで取得したHTMLをパイプでjusttextに流し込みます。

$ curl -sSL https://example.com/ | justtext

ライセンス

MIT

About

HTMLから記事本文や主要なテキストのみを抽出するコマンドラインのツールです。

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors