data yang digunakan pada percobaan ini adalah hasil crawling menggunakan library scrapy python folder news. crawling using python
dari data hasil crawling tersebut dilakukan pra-proses untuk menghilangkan karakter-karakter yang tidak diperlukan, emoticon dan sumber berita (dalam kasus ini saya menghilangkan kata jawapos.com pada paragraph).
tokenisasi dilakukan menggunakan library nltk yang dimaksudkan untuk membuat list kalimat
(cell 8-9)
vektorisasi dilakukan menggunakan library sklearn pada list kalimat yang telah terbentuk dari proses tokenisasi (cell 10)
dari hasil vektorisasi dilakukan normalisasi menggunakan library sklearn dengan menghitung Tfidf dari matrix hasil vektorisasi (cell 12)
matrix adjacency didapat dengan mengalikan matrix normal dengan matrix normal transpose (cell 17)
matrix adjacency yang telah terbentuk dibuatkan sebuah graph menggunakan library networkx untuk melihat hubungan antar kalimat pada list kalimat.
dengan menggunakan library networkx pagerank dibentuk dari matrix adjacency. (cell 21)
- membuat nilai batas yang didapat dengan menggunakan rumus
min-max normalizationyang selanjutnya dijumlahkan dan dibagi dengan jumlah kalimat.thresehold = (sum(minmax value) / len(minmax value))(cell 26-27) - menyeleksi kalimat yang mempunyai nilai diatas batas yang telah ditentukan (cell 28)
- menjadikan kalimat dalam bentuk paragraph (cell 29)