ThePornDatabase
diff --git a/‎.gitignore‎
Lines changed: 7 additions & 0 deletions b/‎.gitignore‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎movies/MovieDorcelClub.py‎
Lines changed: 2 additions & 1 deletion b/‎movies/MovieDorcelClub.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎performers/networkBadoinkVrPerformer.py‎
Lines changed: 20 additions & 15 deletions b/‎performers/networkBadoinkVrPerformer.py‎
Lines changed: 20 additions & 15 deletions
diff --git a/‎performers/siteHobbyPornPerformer.py‎
Lines changed: 68 additions & 0 deletions b/‎performers/siteHobbyPornPerformer.py‎
Lines changed: 68 additions & 0 deletions
diff --git a/‎performers/siteNaughtyMagPerformer.py‎
Lines changed: 147 additions & 0 deletions b/‎performers/siteNaughtyMagPerformer.py‎
Lines changed: 147 additions & 0 deletions
diff --git a/‎scenes/NetworkPornProsAPI.py‎
Lines changed: 3 additions & 0 deletions b/‎scenes/NetworkPornProsAPI.py‎
Lines changed: 3 additions & 0 deletions
@@ -163,3 +163,10 @@ scenes/networkData18.py
 scenes/networkDirtyFlixRip.py
 scenes/siteYesGirlzRip.py
 scenes/siteScorelandPlaywright.py
+scenes/aggregatorPornbox.py
+scenes/generic.py
+scenes/genericJSON.py
+scenes/generic.py
+scenes/aggregatorPornbox.py
+scenes/networkAdulttimeAPIFiller.py
+scenes/networkARXBucks_OLD_DO_NOT_USE.py
@@ -29,7 +29,8 @@ class MovieDorcelClubSpider(BaseSceneScraper):
         'tags': '',
         'external_id': 'scene/(\\d+)',
         'trailer': '',
-        'pagination': '/en/porn-movie?p=%s'
+        # ~ 'pagination': '/en/porn-movie?p=%s'
+        'pagination': '/en/porn-movie-soon?p=%s'
     }
     custom_scraper_settings = {
         'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.62',
 
@@ -21,7 +21,7 @@ def match_path(argument):
 class networkBadoinkVrPerformerSpider(BasePerformerScraper):
 
     selector_map = {
-        'name': '//div[@class="girl-details-info"]/h1/text()',
+        'name': '//ul[contains(@class, "breadcrumbs")]/li[last()]/a/span/text()',
         'image': '//picture/img[@id="girlImage"]/@src',
         'nationality': '//ul[@id="girlOptionDetails"]/li/span[contains(text(),"Country")]/following-sibling::span/text()',
         'ethnicity': '//ul[@id="girlOptionDetails"]/li/span[contains(text(),"Ethnicity")]/following-sibling::span/text()',
@@ -33,14 +33,14 @@ class networkBadoinkVrPerformerSpider(BasePerformerScraper):
         'birthday': '//ul[@id="girlOptionDetails"]/li/span[contains(text(),"Age")]/following-sibling::span/text()',
         'bio': '//p[@class="girl-details-bio"]/text()',
         'pagination': '?page=%s&hybridview=member',
-        'external_id': '.*\/(.*)\/$'
+        'external_id': r'.*/(.*)/$'
     }
 
     name = 'BadoinkVrPerformer'
     network = 'Badoink VR'
     parent = 'Badoink VR'
 
-    
+
     start_urls = [
         'https://badoinkvr.com',
         'https://babevr.com',
@@ -49,11 +49,11 @@ class networkBadoinkVrPerformerSpider(BasePerformerScraper):
         'https://vrcosplayx.com',
         'https://realvr.com',
     ]
-    
+
     def get_next_page_url(self, base, page):
         url = urlparse(base)
         match_pagination = match_path(url.netloc)
-        return self.format_url(base, match_pagination % page)    
+        return self.format_url(base, match_pagination % page)
 
     def get_gender(self, response):
         return 'Female'
@@ -64,14 +64,14 @@ def get_performers(self, response):
             yield scrapy.Request(
                 url=self.format_link(response, performer),
                 callback=self.parse_performer
-            )       
-    
-        
+            )
+
+
     def get_height(self, response):
         if 'height' in self.selector_map:
             height = self.process_xpath(response, self.get_selector_map('height')).get()
             if height:
-                str_height = re.findall('(\d{1,2})', height)
+                str_height = re.findall(r'(\d{1,2})', height)
                 if len(str_height):
                     feet = int(str_height[0])
                     if len(str_height) > 1:
@@ -80,30 +80,35 @@ def get_height(self, response):
                         inches = 0
                     heightcm = str(round(((feet*12)+inches) * 2.54)) + "cm"
                     return heightcm.strip()
-        return '' 
+        return ''
+
 
-             
     def get_cupsize(self, response):
         if 'measurements' in self.selector_map:
             measurements = self.process_xpath(response, self.get_selector_map('measurements')).get()
             if measurements:
                 if "-" in measurements:
-                    cupsize = re.search('(.*?)-.*', measurements).group(1)
+                    cupsize = re.search(r'(.*?)-.*', measurements).group(1)
                     if cupsize:
                         return cupsize.strip()
-        return ''      
+        return ''
 
     def get_birthday(self, response):
         #Birthdate is calculated on Age field.  They're assigned a birthdate of date of import - "Age:" years
         if 'birthday' in self.selector_map:
             age = self.process_xpath(response, self.get_selector_map('birthday')).get()
             if age:
-                age = re.search('(\d+)',age).group(1)
+                age = re.search(r'(\d+)',age).group(1)
                 if age:
                     age = int(age)
                     if age >= 18 and age <= 99:
                         birthdate = datetime.now() - relativedelta(years=age)
                         birthdate = birthdate.strftime('%Y-%m-%d')
                         return birthdate
         return ''
-        
+
+    def get_image(self, response):
+        image = super().get_image(response)
+        if "?q=" in image:
+            image = re.search(r'(.*?)\?q=', image).group(1)
+        return image
@@ -0,0 +1,68 @@
+import re
+import scrapy
+
+from tpdb.BasePerformerScraper import BasePerformerScraper
+
+
+class PerformerSpider(BasePerformerScraper):
+    selector_map = {
+        'name': '',
+        'image': '',
+        'image_blob': True,
+        'bio': '',
+        'gender': '',
+        'astrology': '',
+        'birthday': '',
+        'birthplace': '',
+        'cupsize': '',
+        'ethnicity': '',
+        'eyecolor': '',
+        'fakeboobs': '',
+        'haircolor': '',
+        'height': '',
+        'measurements': '',
+        'nationality': '',
+        'piercings': '',
+        'tattoos': '',
+        'weight': '',
+
+        'pagination': '/models/%s/',
+        'external_id': r'model/(.*)/'
+    }
+
+    name = 'HobbyPornPerformer'
+    network = 'HobbyPorn'
+
+    start_urls = [
+        'https://hobby.porn',
+    ]
+
+    def get_gender(self, response):
+        return 'Female'
+
+    def get_performers(self, response):
+        performers = response.xpath('').getall()
+        for performer in performers:
+            yield scrapy.Request(url=self.format_link(response, performer), callback=self.parse_performer, cookies=self.cookies, headers=self.headers)
+
+    def get_measurements(self, response):
+        if 'measurements' in self.selector_map:
+            measurements = self.process_xpath(response, self.get_selector_map('measurements')).get()
+            if measurements and re.search(r'(\d+\w+-\d+-\d+)', measurements):
+                measurements = re.search(r'(\d+\w+-\d+-\d+)', measurements).group(1)
+                return measurements.strip()
+        return ''
+
+    def get_cupsize(self, response):
+        if 'cupsize' in self.selector_map and self.get_selector_map('cupsize'):
+            cupsize = self.process_xpath(response, self.get_selector_map('cupsize')).get()
+            return cupsize.strip()
+        else:
+            if 'measurements' in self.selector_map:
+                measurements = self.process_xpath(response, self.get_selector_map('measurements')).get()
+                if measurements and re.search(r'(\d+\w+-\d+-\d+)', measurements):
+                    cupsize = re.search(r'(\d+\w+)-\d+-\d+', measurements)
+                    if cupsize:
+                        cupsize = cupsize.group(1)
+                        return cupsize.strip()
+        return ''
@@ -0,0 +1,147 @@
+import re
+import scrapy
+import string
+from tpdb.BasePerformerScraper import BasePerformerScraper
+
+
+class SiteNaughtyMagPerformerPerformerSpider(BasePerformerScraper):
+    selector_map = {
+        'name': '//section[contains(@id, "model-page")]//h1/text()',
+        're_name': r'(.*)\'',
+        'image': '//meta[@property="og:image"]/@content',
+        'image_blob': True,
+        'bio': '',
+        'gender': '',
+        'astrology': '',
+        'birthday': '',
+        'birthplace': '',
+        'cupsize': '//span[contains(text(), "Bra Size")]/following-sibling::span/text()',
+        'ethnicity': '//span[contains(text(), "Ethnicity")]/following-sibling::span/text()',
+        'eyecolor': '',
+        'fakeboobs': '',
+        'haircolor': '//span[contains(text(), "Hair Color")]/following-sibling::span/text()',
+        'height': '//span[contains(text(), "Height")]/following-sibling::span/text()',
+        'measurements': '//span[contains(text(), "Measurements")]/following-sibling::span/text()',
+        'nationality': '',
+        'piercings': '',
+        'tattoos': '',
+        'weight': '//span[contains(text(), "Weight")]/following-sibling::span/text()',
+
+        'pagination': '/big-boob-models/?page=%s',
+        'external_id': r'model/(.*)/'
+    }
+
+    cookies = [
+            {"name":"cookie_consent","value":"accepted"},
+            {"name":"essentialCookies","value":"true"},
+            {"name":"functionalCookies","value":"false"},
+            {"name":"analyticsCookies","value":"false"},
+            {"name":"advertisingCookies","value":"false"},
+            {"name":"doNotSell","value":"false"},
+        ]
+
+    custom_scraper_settings = {
+        'CONCURRENT_REQUESTS': 1,
+        'CONCURRENT_REQUESTS_PER_DOMAIN': 1,
+        'CONCURRENT_REQUESTS_PER_IP': 1,
+        # ~ 'DOWNLOAD_FAIL_ON_DATALOSS': True,
+        'COMPRESSION_ENABLED': False,
+        'RETRY_ENABLED': True,
+        'RETRY_TIMES': 10,
+        'RETRY_HTTP_CODES': [500, 503, 504, 400, 408, 307, 403],
+        'HANDLE_HTTPSTATUS_LIST': [500, 503, 504, 400, 408, 307, 403],
+    }
+
+    name = 'NaughtyMagPerformer'
+    network = 'ScorePass'
+
+    start_urls = [
+        'https://www.18eighteen.com',
+        'https://www.naughtymag.com',
+    ]
+
+    def get_next_page_url(self, base, page):
+        if "18eighteen" in base:
+            pagination = "/teen-babes/?page=%s&sort=newer"
+            if int(page) > 35:
+                return ""
+        if "naughtymag" in base:
+            pagination = "/amateur-girls/?page=%s&sort=newer"
+        return self.format_url(base, pagination % page)
+
+    def get_gender(self, response):
+        return 'Female'
+
+    def get_performers(self, response):
+        meta = response.meta
+        performers = response.xpath('//div[contains(@class, "info")]/div[contains(@class, "trunc")]/a')
+        for performer in performers:
+            name = performer.xpath('./text()')
+            if name:
+                name = name.get()
+                name = string.capwords(name.strip())
+                if " " not in name:
+                    perf_href = performer.xpath('./@href').get()
+                    perf_id = re.search(r'/(\d+)/', perf_href).group(1)
+                    name = name + " " + perf_id
+                meta['name'] = name
+
+            performer = performer.xpath('./@href').get()
+            if "?nats" in performer:
+                performer = re.search(r'(.*?)\?nats', performer).group(1)
+            yield scrapy.Request(url=self.format_link(response, performer), callback=self.parse_performer, cookies=self.cookies, headers=self.headers, meta=meta)
+
+    def get_measurements(self, response):
+        if 'measurements' in self.selector_map:
+            measurements = self.process_xpath(response, self.get_selector_map('measurements')).get()
+            if measurements and re.search(r'(\d+\w+?-\d+-\d+)', measurements):
+                measurements = re.search(r'(\d+\w+?-\d+-\d+)', measurements).group(1)
+                cupsize = self.get_cupsize(response)
+                if cupsize:
+                    measurements = re.search(r'\d+\w+?(-\d+-\d+)', measurements).group(1)
+                    measurements = cupsize.upper() + measurements
+                return measurements.strip()
+        return ''
+
+    def get_height(self, response):
+        height = super().get_height(response)
+        if height:
+            tot_inches = 0
+            if re.search(r'(\d+)[\'\"]', height):
+                feet = re.search(r'(\d+)\'', height)
+                if feet:
+                    feet = feet.group(1)
+                    tot_inches = tot_inches + (int(feet) * 12)
+                inches = re.search(r'\d+?\'(\d+)', height)
+                if inches:
+                    inches = inches.group(1)
+                    inches = int(inches)
+                    tot_inches = tot_inches + inches
+                height = str(int(tot_inches * 2.54)) + "cm"
+                return height
+        return None
+
+    def get_weight(self, response):
+        weight = super().get_height(response)
+        if weight:
+            weight = re.search(r'(\d+)', weight)
+            if weight:
+                weight = weight.group(1)
+                weight = str(int(int(weight) * .453592)) + "kg"
+                return weight
+        return None
+
+    def get_ethnicity(self, response):
+        ethnicity = super().get_ethnicity(response)
+        if "white" in ethnicity.lower():
+            ethnicity = "Caucasian"
+        return ethnicity
+
+    def get_name(self, response):
+        name = super().get_name(response)
+        print(f"In Here: {name}")
+        name = name.strip()
+        if " " not in name:
+            perfid = re.search(r'/(\d+)/', response.url).group(1)
+            name = name + " " + perfid
+        return name
@@ -131,5 +131,8 @@ def get_scenes(self, response):
             if ("pornplus" in meta['site'] or "strippers4k" in meta['site']) and item['date'] < "2025-04-30":
                 submit = False
 
+            if "facials4k" in item['site'] and "pornplus" in item['url']:
+                submit = False
+
             if submit:
                 yield self.check_item(item, self.days)