Commit

2025-12-29 16:14:44 +00:00 · 2025-10-08 17:02:46 +05:30
parent df8a305e81
commit 8239fdb8f3
36 changed files with 5380 additions and 1468 deletions
--- a/src/core/booru_client.py
+++ b/src/core/booru_client.py
@@ -0,0 +1,375 @@
+# src/core/booru_client.py
+
+import os
+import re
+import time
+import datetime
+import urllib.parse
+import requests
+import logging
+import cloudscraper
+# --- Start of Combined Code from 1.py ---
+
+# Part 1: Essential Utilities & Exceptions
+
+class BooruClientException(Exception):
+    """Base class for exceptions in this client."""
+    pass
+
+class HttpError(BooruClientException):
+    """HTTP request during data extraction failed."""
+    def __init__(self, message="", response=None):
+        self.response = response
+        self.status = response.status_code if response else 0
+        if response and not message:
+            message = f"'{response.status_code} {response.reason}' for '{response.url}'"
+        super().__init__(message)
+
+class NotFoundError(BooruClientException):
+    pass
+
+def unquote(s):
+    return urllib.parse.unquote(s)
+
+def parse_datetime(date_string, fmt):
+    try:
+        # Assumes date_string is in a format that strptime can handle with timezone
+        return datetime.datetime.strptime(date_string, fmt)
+    except (ValueError, TypeError):
+        return None
+
+def nameext_from_url(url, data=None):
+    if data is None: data = {}
+    try:
+        path = urllib.parse.urlparse(url).path
+        filename = unquote(os.path.basename(path))
+        if '.' in filename:
+            name, ext = filename.rsplit('.', 1)
+            data["filename"], data["extension"] = name, ext.lower()
+        else:
+            data["filename"], data["extension"] = filename, ""
+    except Exception:
+        data["filename"], data["extension"] = "", ""
+    return data
+
+USERAGENT_FIREFOX = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/118.0"
+
+# Part 2: Core Extractor Logic
+
+class Extractor:
+    category = ""
+    subcategory = ""
+    directory_fmt = ("{category}", "{id}")
+    filename_fmt = "{filename}.{extension}"
+    _retries = 3
+    _timeout = 30
+
+    def __init__(self, match, logger_func=print):
+        self.url = match.string
+        self.match = match
+        self.groups = match.groups()
+        self.session = cloudscraper.create_scraper()
+        self.session.headers["User-Agent"] = USERAGENT_FIREFOX
+        self.log = logger_func
+        self.api_key = None
+        self.user_id = None
+
+    def set_auth(self, api_key, user_id):
+        self.api_key = api_key
+        self.user_id = user_id
+        self._init_auth()
+
+    def _init_auth(self):
+        """Placeholder for extractor-specific auth setup."""
+        pass
+
+    def request(self, url, method="GET", fatal=True, **kwargs):
+        for attempt in range(self._retries + 1):
+            try:
+                response = self.session.request(method, url, timeout=self._timeout, **kwargs)
+                if response.status_code < 400:
+                    return response
+                if response.status_code == 404 and fatal:
+                    raise NotFoundError(f"Resource not found at {url}")
+                self.log(f"Request for {url} failed with status {response.status_code}. Retrying...")
+            except requests.exceptions.RequestException as e:
+                self.log(f"Request for {url} failed: {e}. Retrying...")
+            if attempt < self._retries:
+                time.sleep(2 ** attempt)
+        if fatal:
+            raise HttpError(f"Failed to retrieve {url} after {self._retries} retries.")
+        return None
+
+    def request_json(self, url, **kwargs):
+        response = self.request(url, **kwargs)
+        try:
+            return response.json()
+        except (ValueError, TypeError) as exc:
+            self.log(f"Failed to decode JSON from {url}: {exc}")
+            raise BooruClientException("Invalid JSON response")
+
+    def items(self):
+        data = self.metadata()
+        for item in self.posts():
+            # Check for our special page update message
+            if isinstance(item, tuple) and item[0] == 'PAGE_UPDATE':
+                yield item
+                continue
+
+            # Otherwise, process it as a post
+            post = item
+            url = post.get("file_url")
+            if not url: continue
+            
+            nameext_from_url(url, post)
+            post["date"] = parse_datetime(post.get("created_at"), "%Y-%m-%dT%H:%M:%S.%f%z")
+
+            if url.startswith("/"):
+                url = self.root + url
+            post['file_url'] = url # Ensure full URL
+            
+            post.update(data)
+            yield post
+
+class BaseExtractor(Extractor):
+    instances = ()
+
+    def __init__(self, match, logger_func=print):
+        super().__init__(match, logger_func)
+        self._init_category()
+
+    def _init_category(self):
+        parsed_url = urllib.parse.urlparse(self.url)
+        self.root = f"{parsed_url.scheme}://{parsed_url.netloc}"
+        for i, group in enumerate(self.groups):
+            if group is not None:
+                try:
+                    self.category = self.instances[i][0]
+                    return
+                except IndexError:
+                    continue
+    
+    @classmethod
+    def update(cls, instances):
+        pattern_list = []
+        instance_list = cls.instances = []
+        for category, info in instances.items():
+            root = info["root"].rstrip("/") if info["root"] else ""
+            instance_list.append((category, root, info))
+            pattern = info.get("pattern", re.escape(root.partition("://")[2]))
+            pattern_list.append(f"({pattern})") 
+        return r"(?:https?://)?(?:" + "|".join(pattern_list) + r")"
+
+# Part 3: Danbooru Extractor
+
+class DanbooruExtractor(BaseExtractor):
+    filename_fmt = "{category}_{id}_{filename}.{extension}"
+    per_page = 200
+
+    def __init__(self, match, logger_func=print):
+        super().__init__(match, logger_func)
+        self._auth_logged = False
+
+    def _init_auth(self):
+        if self.user_id and self.api_key:
+            if not self._auth_logged:
+                self.log("Danbooru auth set.")
+                self._auth_logged = True
+            self.session.auth = (self.user_id, self.api_key)
+
+
+    def items(self):
+        data = self.metadata()
+        for item in self.posts():
+            # Check for our special page update message
+            if isinstance(item, tuple) and item[0] == 'PAGE_UPDATE':
+                yield item
+                continue
+
+            # Otherwise, process it as a post
+            post = item
+            url = post.get("file_url")
+            if not url: continue
+            
+            nameext_from_url(url, post)
+            post["date"] = parse_datetime(post.get("created_at"), "%Y-%m-%dT%H:%M:%S.%f%z")
+
+            if url.startswith("/"):
+                url = self.root + url
+            post['file_url'] = url # Ensure full URL
+            
+            post.update(data)
+            yield post
+
+    def metadata(self):
+        return {}
+
+    def posts(self):
+        return []
+
+    def _pagination(self, endpoint, params, prefix="b"):
+        url = self.root + endpoint
+        params["limit"] = self.per_page
+        params["page"] = 1
+        threshold = self.per_page - 20
+
+        while True:
+            posts = self.request_json(url, params=params)
+            if not posts: break
+            yield ('PAGE_UPDATE', len(posts)) 
+            yield from posts
+            if len(posts) < threshold: return
+            if prefix:
+                params["page"] = f"{prefix}{posts[-1]['id']}"
+            else:
+                params["page"] += 1
+
+BASE_PATTERN = DanbooruExtractor.update({
+    "danbooru": {"root": None, "pattern": r"(?:danbooru|safebooru)\.donmai\.us"},
+})
+
+class DanbooruTagExtractor(DanbooruExtractor):
+    subcategory = "tag"
+    directory_fmt = ("{category}", "{search_tags}")
+    pattern = BASE_PATTERN + r"(/posts\?(?:[^&#]*&)*tags=([^&#]*))"
+    
+    def metadata(self):
+        self.tags = unquote(self.groups[-1].replace("+", " ")).strip()
+        sanitized_tags = re.sub(r'[\\/*?:"<>|]', "_", self.tags)
+        return {"search_tags": sanitized_tags}
+
+    def posts(self):
+        return self._pagination("/posts.json", {"tags": self.tags})
+
+class DanbooruPostExtractor(DanbooruExtractor):
+    subcategory = "post"
+    pattern = BASE_PATTERN + r"(/post(?:s|/show)/(\d+))"
+    
+    def posts(self):
+        post_id = self.groups[-1]
+        url = f"{self.root}/posts/{post_id}.json"
+        post = self.request_json(url)
+        return (post,) if post else ()
+
+class GelbooruBase(Extractor):
+    category = "gelbooru"
+    root = "https://gelbooru.com"
+
+    def __init__(self, match, logger_func=print):
+        super().__init__(match, logger_func)
+        self._auth_logged = False
+    
+    def _api_request(self, params, key="post"):
+        # Auth is now added dynamically
+        if self.api_key and self.user_id:
+            if not self._auth_logged:
+                self.log("Gelbooru auth set.")
+                self._auth_logged = True
+            params.update({"api_key": self.api_key, "user_id": self.user_id})
+
+        url = self.root + "/index.php?page=dapi&q=index&json=1"
+        data = self.request_json(url, params=params)
+        
+        if not key: return data
+        posts = data.get(key, [])
+        return posts if isinstance(posts, list) else [posts] if posts else []
+
+    def items(self):
+        base_data = self.metadata()
+        base_data['category'] = self.category
+        
+        for item in self.posts():
+            # Check for our special page update message
+            if isinstance(item, tuple) and item[0] == 'PAGE_UPDATE':
+                yield item
+                continue
+
+            # Otherwise, process it as a post
+            post = item
+            url = post.get("file_url")
+            if not url: continue
+            
+            data = base_data.copy()
+            data.update(post)
+            nameext_from_url(url, data)
+            yield data
+
+    def metadata(self): return {}
+    def posts(self): return []
+
+GELBOORU_PATTERN = r"(?:https?://)?(?:www\.)?gelbooru\.com"
+
+class GelbooruTagExtractor(GelbooruBase):
+    subcategory = "tag"
+    directory_fmt = ("{category}", "{search_tags}")
+    filename_fmt = "{category}_{id}_{md5}.{extension}"
+    pattern = GELBOORU_PATTERN + r"(/index\.php\?page=post&s=list&tags=([^&#]*))"
+    
+    def metadata(self):
+        self.tags = unquote(self.groups[-1].replace("+", " ")).strip()
+        sanitized_tags = re.sub(r'[\\/*?:"<>|]', "_", self.tags)
+        return {"search_tags": sanitized_tags}
+
+    def posts(self):
+        """Scrapes HTML search pages as API can be restrictive for tags."""
+        pid = 0
+        posts_per_page = 42
+        search_url = self.root + "/index.php"
+        params = {"page": "post", "s": "list", "tags": self.tags}
+        
+        while True:
+            params['pid'] = pid
+            self.log(f"Scraping search results page (offset: {pid})...")
+            response = self.request(search_url, params=params)
+            html_content = response.text
+            post_ids = re.findall(r'id="p(\d+)"', html_content)
+            
+            if not post_ids:
+                self.log("No more posts found on page. Ending scrape.")
+                break
+            yield ('PAGE_UPDATE', len(post_ids))             
+            for post_id in post_ids:
+                post_data = self._api_request({"s": "post", "id": post_id})
+                yield from post_data
+            
+            pid += posts_per_page
+
+class GelbooruPostExtractor(GelbooruBase):
+    subcategory = "post"
+    filename_fmt = "{category}_{id}_{md5}.{extension}"
+    pattern = GELBOORU_PATTERN + r"(/index\.php\?page=post&s=view&id=(\d+))"
+
+    def posts(self):
+        post_id = self.groups[-1]
+        return self._api_request({"s": "post", "id": post_id})
+
+# --- Main Entry Point ---
+
+EXTRACTORS = [
+    DanbooruTagExtractor,
+    DanbooruPostExtractor,
+    GelbooruTagExtractor,
+    GelbooruPostExtractor,
+]
+
+def find_extractor(url, logger_func):
+    for extractor_cls in EXTRACTORS:
+        match = re.search(extractor_cls.pattern, url)
+        if match:
+            return extractor_cls(match, logger_func)
+    return None
+
+def fetch_booru_data(url, api_key, user_id, logger_func):
+    """
+    Main function to find an extractor and yield image data.
+    """
+    extractor = find_extractor(url, logger_func)
+    if not extractor:
+        logger_func(f"No suitable Booru extractor found for URL: {url}")
+        return
+
+    logger_func(f"Using extractor: {extractor.__class__.__name__}")
+    extractor.set_auth(api_key, user_id)
+    
+    # The 'items' method will now yield the data dictionaries directly
+    yield from extractor.items()