feat: implemented the fetching of the artist

2023-09-12 18:50:32 +02:00
parent 6e82c1e5cb
commit e9e9e61e7c
2 changed files with 48 additions and 6 deletions
--- a/src/music_kraken/objects/init.py
+++ b/src/music_kraken/objects/init.py
@@ -18,3 +18,4 @@ from .formatted_text import FormattedText
 from .collection import Collection

 from .country import Country
+from .contact import Contact
--- a/src/music_kraken/pages/bandcamp.py
+++ b/src/music_kraken/pages/bandcamp.py
@@ -2,7 +2,7 @@ from typing import List, Optional, Type
 from urllib.parse import urlparse
 import logging
 from enum import Enum
-
+from bs4 import BeautifulSoup

 from ..objects import Source, DatabaseObject
 from .abstract import Page
@@ -13,7 +13,8 @@ from ..objects import (
    Song,
    Album,
    Label,
-    Target
+    Target,
+    Contact
 )
 from ..connection import Connection
 from ..utils.support_classes import DownloadResult
@@ -33,6 +34,7 @@ class Bandcamp(Page):
    # CHANGE
    SOURCE_TYPE = SourcePages.BANDCAMP
    LOGGER = logging_settings["bandcamp_logger"]
+    HOST = "https://onlysmile.bandcamp.com"

    def __init__(self, *args, **kwargs):
        self.connection: Connection = Connection(
@@ -143,7 +145,45 @@ class Bandcamp(Page):
    
    def song_search(self, song: Song) -> List[Song]:
        return self.general_search(song.title, filter_string="t")
+
+    def _parse_artist_details(self, soup: BeautifulSoup) -> Artist:
+        name: str = None
+        source_list: List[Source] = []
+        contact_list: List[Contact] = []
+        
+        band_name_location: BeautifulSoup = soup.find("p", {"id": "band-name-location"})
+        if band_name_location is not None:
+            title_span = band_name_location.find("span", {"class": "title"})
+            if title_span is not None:
+                name = title_span.text.strip()
+        
+        link_container: BeautifulSoup = soup.find("ol", {"id": "band-links"})
+        if link_container is not None:
+            li: BeautifulSoup
+            for li in link_container.find_all("a"):
+                if li is None and li['href'] is not None:
+                    continue
+
+                source_list.append(Source.match_url(li['href'], referer_page=self.SOURCE_TYPE))
+
+        return Artist(
+            name=name,
+            source_list=source_list
+        )
    
+    def _parse_song_list(self, soup: BeautifulSoup) -> List[Album]:
+        title = None
+        source_list: List[Source] = []
+
+        a = soup.find("a")
+        if a is not None and a["href"] is not None:
+            source_list.append(Source(self.SOURCE_TYPE, self.HOST + a["href"]))
+        
+        title_p = soup.find("p", {"class": "title"})
+        if title_p is not None:
+            title = title_p.text.strip()
+
+        return Album(title=title, source_list=source_list)

    def fetch_artist(self, source: Source, stop_at_level: int = 1) -> Artist:
        artist = Artist()
@@ -153,12 +193,13 @@ class Bandcamp(Page):
            return artist
        
        soup = self.get_soup_from_response(r)
-        data_container = soup.find("div", {"id": "pagedata"})
-        data = data_container["data-blob"]
-        
+
        if DEBUG:
            dump_to_file("artist_page.html", r.text, exit_after_dump=False)
-            dump_to_file("bandcamp_artis.json", data, is_json=True, exit_after_dump=False)
+
+        artist = self._parse_artist_details(soup=soup.find("div", {"id": "bio-container"}))
+        for subsoup in soup.find("ol", {"id": "music-grid"}).find_all("li"):
+            artist.main_album_collection.append(self._parse_song_list(soup=subsoup))

        return artist