SearchEngine/Engine.py at master · MindForze/SearchEngine · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
import timeit
import sqlite3
from time import sleep
from random import randint
from Model import *
from datetime import *
from Crawler import Crawler, NUMOFPAGES
from Indexer import Indexer


class Engine:

    def __init__(self):

        DBCrawl.connect()
        DBUnCrawl.connect()
        DBRobot.connect()
        DBWebPage.connect()
        DBPageRank.connect()
        DBIndexer.connect()
        indexedCount.connect()
        #DBQuery.connect()

        self._getDBTables()
        self.indexer = Indexer()
        self.numberOfThreads = 1
        self._setNumOfThreads()
        self.crawlerObjs = []
        self._createCrawlerObjects()


    def _getDBTables(self):

        if not DBCrawl.get_tables():
            print("Creating Crawl Database...")
            DBCrawl.create_tables([CrawledTable, Seeds])
            #Seeds(pageURL='https://www.reddit.com/', crawlFrequency=1, lastCrawl=datetime(1960, 1, 1, 1, 1, 1)).save()
            Seeds(pageURL='https://twitter.com/', crawlFrequency=1, lastCrawl= datetime(1960, 1, 1, 1, 1, 1)).save()
            #Seeds(pageURL='https://www.newsvine.com/', crawlFrequency=1, lastCrawl=datetime(1960, 1, 1, 1, 1, 1)).save()
        if not DBUnCrawl.get_tables():
            print("Creating UnCrawl Database...")
            DBUnCrawl.create_tables([UncrawledTable])
        if not DBRobot.get_tables():
            print("Creating Robot Database...")
            DBRobot.create_tables([RobotTxts])
        if not DBWebPage.get_tables():
            print("Creating WebPage Database...")
            DBWebPage.create_tables([WebPages])
        if not DBPageRank.get_tables():
            print("Creating PageRank Database...")
            DBPageRank.create_tables([PageRank])
        if not DBIndexer.get_tables():
            print("Creating Indexer Database...")
            DBIndexer.create_tables([IndexerTable])
        if not indexedCount.get_tables():
            print("Creating indexedCount var...")
            indexedCount.create_tables([IndexedCount])
            IndexedCount.insert().execute()
        if not DBPhrase.get_tables():
            print("Creating PhraseSearch Database...")
            DBPhrase.create_tables([FullPages])
        #if not DBQuery.get_tables():
        #    print("Creating Query Database...")
        #    DBQuery.create_tables([QuerySuggestion])


    def _setNumOfThreads(self):

        self.numberOfThreads = input('Enter number of threads: ')
        while not self.numberOfThreads.isnumeric():
            self.numberOfThreads = input('Invalid input, please enter a valid number: ')


    def _createCrawlerObjects(self):
        Crawler.numberOfThreads = int(self.numberOfThreads)
        print('Creating ', self.numberOfThreads , ' crawler objects.')
        for i in range(int(self.numberOfThreads)):
            self.crawlerObjs.append(Crawler(i))


    '''create crawling threads and start indexing'''
    def start(self):

        for i in range(len(self.crawlerObjs)):
            self.crawlerObjs[i].start()

        tryFor = NUMOFPAGES #trials for indexer if WebPages table is found empty
        sleepFor =10 #secs
        self.indexed = IndexedCount.get(IndexedCount.id == 1).indexedURLs
        '''temp = IndexedCount.select().where(IndexedCount.id == 1)
        for x in temp:
            self.indexed = x.indexedURLs'''

        print(self.indexed)
        while(tryFor != 0):
            print("INDEXER: Indexer will try to index after %d seconds." % sleepFor)
            sleep(randint(1,sleepFor))  # give time for crawling threads to add new urls
            self._indexCrawledPages()
            tryFor -= 1
            print("INDEXER: %d Trials left for indexer." % tryFor)
        return

    '''Indexes newly crawled web pages'''
    def _indexCrawledPages(self):

        print("INDEXER: Indexing started...")
        start = timeit.default_timer()
        #count = 0
        #while True:
            #try:
        print("INDEXER: %d found web pages for indexing..." % (WebPages.select().count()))
        #print("Crawled table entries: ", CrawledTable.select().count())
        #print("Uncrawled table entries: ", UncrawledTable.select().count())
        selector =  WebPages.select().where(WebPages.id == self.indexed+1)
        for page in selector:

            self.indexer.update(str(page.pageURL), str(page.pageContent))
            self.indexed += 1
            #sleep(randint(1,5))
            '''if(self.indexed % 100 == 1):
                while True:
                    try:
                        # delete indexed page from WebPages table
                        dell =WebPages.delete().where(WebPages.id <= self.indexed)
                        dell.execute()
                        print("INDEXER: Deleted old entries from WebPages table")
                        break
                    except (OperationalError, sqlite3.OperationalError) as e:
                        if 'binding' in str(e):
                            break
                        print('INDEXER: Database busy, retrying. WebPage delete')
                        sleep(randint(1,10))
                    except:
                        break'''
        #WebPages is empty
        IndexedCount.update(indexedURLs=self.indexed).where(IndexedCount.id == 1).execute()
        '''break
    except (OperationalError, sqlite3.OperationalError) as e:
        if 'binding' in str(e):
            break
        print("INDEXER: DB Busy: Indexer is Retrying...'")
        sleep(randint(1, 10))
    except:
        break'''

        stop = timeit.default_timer()
        print("INDEXER: TOOK :: %.2f mins, %d indexed web pages." % ((stop - start) / 60., self.indexed))


    def end(self):

        for i in range(len(self.crawlerObjs)):
            self.crawlerObjs[i].join()
        print("All crawling threads are done...")

        print("Indexing for the last time")
        self._indexCrawledPages()
        print("Emptying all tables and Terminating Engine...")
        try:
            CrawledTable.delete().execute()
            UncrawledTable.delete().execute()
            RobotTxts.delete().execute()
        except:
            print("DB Error: Couldn't delete all tables!")

        #close db
        DBCrawl.close()
        DBUnCrawl.close()
        DBWebPage.close()
        DBRobot.close()
        DBIndexer.close()
        DBPageRank.close()
        indexedCount.close()

        return