Commit

2025-12-29 16:14:44 +00:00 · 2025-08-27 07:21:30 -07:00
parent f8b150dfdb
commit cc3565b12b
7 changed files with 1451 additions and 181 deletions
--- a/src/core/erome_client.py
+++ b/src/core/erome_client.py
@@ -0,0 +1,147 @@
+# src/core/erome_client.py
+
+import os
+import re
+import html
+import time
+import urllib.parse
+import requests
+from datetime import datetime
+
+# #############################################################################
+# SECTION: Utility functions adapted from the original script
+# #############################################################################
+
+def extr(txt, begin, end, default=""):
+    """Stripped-down version of 'extract()' to find text between two delimiters."""
+    try:
+        first = txt.index(begin) + len(begin)
+        return txt[first:txt.index(end, first)]
+    except (ValueError, IndexError):
+        return default
+
+def extract_iter(txt, begin, end):
+    """Yields all occurrences of text between two delimiters."""
+    try:
+        index = txt.index
+        lbeg = len(begin)
+        lend = len(end)
+        pos = 0
+        while True:
+            first = index(begin, pos) + lbeg
+            last = index(end, first)
+            pos = last + lend
+            yield txt[first:last]
+    except (ValueError, IndexError):
+        return
+
+def nameext_from_url(url):
+    """Extracts filename and extension from a URL."""
+    data = {}
+    filename = urllib.parse.unquote(url.partition("?")[0].rpartition("/")[2])
+    name, _, ext = filename.rpartition(".")
+    if name and len(ext) <= 16:
+        data["filename"], data["extension"] = name, ext.lower()
+    else:
+        data["filename"], data["extension"] = filename, ""
+    return data
+
+def parse_timestamp(ts, default=None):
+    """Creates a datetime object from a Unix timestamp."""
+    try:
+        # Use fromtimestamp for simplicity and compatibility
+        return datetime.fromtimestamp(int(ts))
+    except (ValueError, TypeError):
+        return default
+
+# #############################################################################
+# SECTION: Main Erome Fetching Logic
+# #############################################################################
+
+def fetch_erome_data(url, logger):
+    """
+    Identifies and extracts all media files from an Erome album URL.
+
+    Args:
+        url (str): The Erome album URL (e.g., https://www.erome.com/a/albumID).
+        logger (function): A function to log progress messages.
+
+    Returns:
+        tuple: A tuple containing (album_folder_name, list_of_file_dicts).
+               Returns (None, []) if data extraction fails.
+    """
+    album_id_match = re.search(r"/a/(\w+)", url)
+    if not album_id_match:
+        logger(f"Error: The URL '{url}' does not appear to be a valid Erome album link.")
+        return None, []
+
+    album_id = album_id_match.group(1)
+    page_url = f"https://www.erome.com/a/{album_id}"
+    
+    session = requests.Session()
+    session.headers.update({
+        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36",
+        "Referer": "https://www.erome.com/"
+    })
+
+    try:
+        logger(f"   Fetching Erome album page: {page_url}")
+        # Add a loop to handle "Please wait" pages
+        for attempt in range(5):
+            response = session.get(page_url, timeout=30)
+            response.raise_for_status()
+            page_content = response.text
+            if "<title>Please wait a few moments</title>" in page_content:
+                logger(f"   Cloudflare check detected. Waiting 5 seconds... (Attempt {attempt + 1}/5)")
+                time.sleep(5)
+                continue
+            break
+        else:
+            logger("   Error: Could not bypass Cloudflare check after several attempts.")
+            return None, []
+
+        title = html.unescape(extr(page_content, 'property="og:title" content="', '"'))
+        user = urllib.parse.unquote(extr(page_content, 'href="https://www.erome.com/', '"', default="unknown_user"))
+        
+        # Sanitize title and user for folder creation
+        sanitized_title = re.sub(r'[<>:"/\\|?*]', '_', title).strip()
+        sanitized_user = re.sub(r'[<>:"/\\|?*]', '_', user).strip()
+        
+        album_folder_name = f"Erome - {sanitized_user} - {sanitized_title} [{album_id}]"
+        
+        urls = []
+        # Split the page content by media groups to find all videos
+        media_groups = page_content.split('<div class="media-group"')
+        for group in media_groups[1:]: # Skip the part before the first media group
+            # Prioritize <source> tag, fall back to data-src for images
+            video_url = extr(group, '<source src="', '"') or extr(group, 'data-src="', '"')
+            if video_url:
+                urls.append(video_url)
+
+        if not urls:
+            logger("   Warning: No media URLs found on the album page.")
+            return album_folder_name, []
+
+        logger(f"   Found {len(urls)} media files in album '{title}'.")
+        
+        file_list = []
+        for i, file_url in enumerate(urls, 1):
+            filename_info = nameext_from_url(file_url)
+            # Create a clean, descriptive filename
+            filename = f"{album_id}_{sanitized_title}_{i:03d}.{filename_info.get('extension', 'mp4')}"
+            
+            file_data = {
+                "url": file_url,
+                "filename": filename,
+                "headers": {"Referer": page_url},
+            }
+            file_list.append(file_data)
+            
+        return album_folder_name, file_list
+
+    except requests.exceptions.RequestException as e:
+        logger(f"   Error fetching Erome page: {e}")
+        return None, []
+    except Exception as e:
+        logger(f"   An unexpected error occurred during Erome extraction: {e}")
+        return None, []