music-kraken-core/src/music_kraken/pages/musify.py

from typing import List, Optional, Union
import requests
from bs4 import BeautifulSoup
import pycountry
import time

from ..utils.shared import (
    ENCYCLOPAEDIA_METALLUM_LOGGER as LOGGER
)

from .abstract import Page
from ..objects import (
    MusicObject,
    Artist,
    Source,
    SourcePages,
    Song,
    Album,
    ID3Timestamp,
    FormattedText,
    Label,
    Options
)
from ..utils import (
    string_processing,
    shared
)
from ..utils.shared import (
    MUSIFY_LOGGER as LOGGER
)


class Musify(Page):
    API_SESSION: requests.Session = requests.Session()
    API_SESSION.headers = {
        "User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:106.0) Gecko/20100101 Firefox/106.0",
        "Connection": "keep-alive",
        "Referer": "https://musify.club/"
    }
    API_SESSION.proxies = shared.proxies

    SOURCE_TYPE = SourcePages.MUSIFY
    
    HOST = "https://musify.club"

    @classmethod
    def search_by_query(cls, query: str) -> Options:
        query_obj = cls.Query(query)

        if query_obj.is_raw:
            return cls.plaintext_search(query_obj.query)
        return cls.plaintext_search(cls.get_plaintext_query(query_obj))

    @classmethod
    def get_plaintext_query(cls, query: Page.Query) -> str:
        if query.album is None:
            return f"{query.artist or '*'} - {query.song or '*'}"
        return f"{query.artist or '*'} - {query.album or '*'} - {query.song or '*'}"

    @classmethod
    def get_soup_of_search(cls, query: str, trie=0) -> Optional[BeautifulSoup]:
        url = f"https://musify.club/search?searchText={query}"
        LOGGER.debug(f"Trying to get soup from {url}")
        try:
            r = cls.API_SESSION.get(url, timeout=15)
        except requests.exceptions.Timeout:
            return None
        if r.status_code != 200:
            if r.status_code in [503] and trie < cls.TRIES:
                LOGGER.warning(f"youtube blocked downloading. ({trie}-{cls.TRIES})")
                LOGGER.warning(f"retrying in {cls.TIMEOUT} seconds again")
                time.sleep(cls.TIMEOUT)
                return cls.get_soup_of_search(query, trie=trie + 1)

            LOGGER.warning("too many tries, returning")
            return None
        return BeautifulSoup(r.content, features="html.parser")
    
    @classmethod
    def parse_artist_contact(cls, contact: BeautifulSoup) -> Artist:
        source_list: List[Source] = []
        name = ""
        _id = None
        
        # source
        anchor = contact.find("a")
        if anchor is not None:
            href = anchor.get("href")
            name = anchor.get("title")
            
            if "-" in href:
                _id = href.split("-")[-1]
            
            source_list.append(Source(cls.SOURCE_TYPE, cls.HOST + href))
            
        # artist image
        image_soup = contact.find("img")
        if image_soup is not None:
            alt = image_soup.get("alt")
            if alt is not None:
                name = alt
                
            artist_thumbnail = image_soup.get("src")
        
        return Artist(
            _id=_id,
            name=name,
            source_list=source_list
        )
    
    @classmethod
    def parse_album_contact(cls, contact: BeautifulSoup) -> Album:
        """
        parsing following html:
        
        ```html
        <div class="contacts__item">
            <a href="/release/ghost-bath-ghost-bath-2013-602489" title="Ghost Bath - 2013">
            
            <div class="contacts__img release">
                <img alt="Ghost Bath" class="lozad" data-src="https://37s.musify.club/img/69/9060265/24178833.jpg"/>
                <noscript><img alt="Ghost Bath" src="https://37s.musify.club/img/69/9060265/24178833.jpg"/></noscript>
            </div>
            
            <div class="contacts__info">
                <strong>Ghost Bath - 2013</strong>
                <small>Ghost Bath</small>
                <small>Треков: 4</small>    <!--tracks-->
                <small><i class="zmdi zmdi-star zmdi-hc-fw"></i> 9,04</small>
            </div>
            </a>
        </div>
        ```
        """
        
        source_list: List[Source] = []
        title = ""
        _id = None
        year = None
        artist_list: List[Artist] = []
        
        def parse_title_date(title_date: Optional[str], delimiter: str = " - "):
            if title_date is None:
                return
            
            title_date = title_date.strip()    
            split_attr = title_date.split(delimiter)
            
            if len(split_attr) < 2:
                return
            if not split_attr[-1].isdigit():
                return
            
            year = int(split_attr[-1])
            title = delimiter.join(split_attr[:-1])
        
        # source
        anchor = contact.find("a")
        if anchor is not None:
            href = anchor.get("href")
            
            # get the title and year
            parse_title_date(anchor.get("title"))
            
            
            if "-" in href:
                _id = href.split("-")[-1]
            
            source_list.append(Source(cls.SOURCE_TYPE, cls.HOST + href))
        
        # cover art
        image_soup = contact.find("img")
        if image_soup is not None:
            alt = image_soup.get("alt")
            if alt is not None:
                title = alt
                
            cover_art = image_soup.get("src")
        
        contact_info_soup = contact.find("div", {"class": "contacts__info"})
        if contact_info_soup is not None:
            """
            <strong>Ghost Bath - 2013</strong>
            <small>Ghost Bath</small>
            <small>Треков: 4</small>    <!--tracks-->
            <small><i class="zmdi zmdi-star zmdi-hc-fw"></i> 9,04</small>
            """
            
            title_soup = contact_info_soup.find("strong")
            if title_soup is None:
                parse_title_date(title_soup)
                
            small_list = contact_info_soup.find_all("small")
            if len(small_list) == 3:
                # artist
                artist_soup: BeautifulSoup = small_list[0]
                raw_artist_str = artist_soup.text

                for artist_str in raw_artist_str.split("&\r\n"):
                    artist_str = artist_str.rstrip("& ...\r\n")
                    artist_str = artist_str.strip()
                    
                    artist_list.append(Artist(name=artist_str))
                
                track_count_soup: BeautifulSoup = small_list[1]
                rating_soup: BeautifulSoup = small_list[2]
            else:
                LOGGER.warning("got an unequal ammount than 3 small elements")
                
            
        return Album(
            _id=_id,
            title=title,
            source_list=source_list,
            date=ID3Timestamp(year=year),
            artist_list=artist_list
        )
    
    @classmethod
    def parse_contact_container(cls, contact_container_soup: BeautifulSoup) -> List[Union[Artist, Album]]:
        #print(contact_container_soup.prettify)
        contacts = []
        
        # print(contact_container_soup)
        
        contact: BeautifulSoup
        for contact in contact_container_soup.find_all("div", {"class": "contacts__item"}):
            
            anchor_soup = contact.find("a")

            if anchor_soup is not None:
                url = anchor_soup.get("href")
            
                if url is not None:
                    #print(url)
                    if "artist" in url:
                        contacts.append(cls.parse_artist_contact(contact))
                    elif "release" in url:
                        contacts.append(cls.parse_album_contact(contact))
        return contacts
    
    @classmethod
    def parse_playlist_soup(cls, playlist_soup: BeautifulSoup) -> List[Song]:
        # print(playlist_soup.prettify)
        return []

    @classmethod
    def plaintext_search(cls, query: str) -> Options:
        search_results = []
        
        search_soup = cls.get_soup_of_search(query=query)
        if search_soup is None:
            return None
        
        # album and songs
        # child of div class: contacts row
        for contact_container_soup in search_soup.find_all("div", {"class": "contacts"}):
            search_results.extend(cls.parse_contact_container(contact_container_soup))
        
        # song
        # div class: playlist__item
        for playlist_soup in search_soup.find_all("div", {"class": "playlist"}):
            search_results.extend(cls.parse_playlist_soup(playlist_soup))

        return Options(search_results)

    @classmethod
    def fetch_album_details(cls, album: Album, flat: bool = False) -> Album:

        return album

    @classmethod
    def fetch_song_details(cls, song: Song, flat: bool = False) -> Song:
        source_list = song.source_collection.get_sources_from_page(cls.SOURCE_TYPE)
        if len(source_list) == 0:
            return song

        """
        TODO
        lyrics
        """

        return song
df 2023-03-15 19:55:28 +00:00			`from typing import List, Optional, Union`
Create musify.py 2023-03-13 14:47:38 +00:00			`import requests`
			`from bs4 import BeautifulSoup`
			`import pycountry`
Update musify.py 2023-03-14 13:48:03 +00:00			`import time`
Create musify.py 2023-03-13 14:47:38 +00:00
			`from ..utils.shared import (`
			`ENCYCLOPAEDIA_METALLUM_LOGGER as LOGGER`
			`)`

			`from .abstract import Page`
			`from ..objects import (`
			`MusicObject,`
			`Artist,`
			`Source,`
			`SourcePages,`
			`Song,`
			`Album,`
			`ID3Timestamp,`
			`FormattedText,`
			`Label,`
			`Options`
			`)`
			`from ..utils import (`
			`string_processing,`
			`shared`
			`)`
Update musify.py 2023-03-14 13:48:03 +00:00			`from ..utils.shared import (`
			`MUSIFY_LOGGER as LOGGER`
			`)`
Create musify.py 2023-03-13 14:47:38 +00:00

df 2023-03-15 19:55:28 +00:00			`class Musify(Page):`
Create musify.py 2023-03-13 14:47:38 +00:00			`API_SESSION: requests.Session = requests.Session()`
			`API_SESSION.headers = {`
			`"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:106.0) Gecko/20100101 Firefox/106.0",`
			`"Connection": "keep-alive",`
			`"Referer": "https://musify.club/"`
			`}`
			`API_SESSION.proxies = shared.proxies`

			`SOURCE_TYPE = SourcePages.MUSIFY`
df 2023-03-15 19:55:28 +00:00
			`HOST = "https://musify.club"`
Create musify.py 2023-03-13 14:47:38 +00:00
			`@classmethod`
			`def search_by_query(cls, query: str) -> Options:`
			`query_obj = cls.Query(query)`

			`if query_obj.is_raw:`
Update musify.py 2023-03-14 13:48:03 +00:00			`return cls.plaintext_search(query_obj.query)`
			`return cls.plaintext_search(cls.get_plaintext_query(query_obj))`
Create musify.py 2023-03-13 14:47:38 +00:00
			`@classmethod`
Update musify.py 2023-03-14 13:48:03 +00:00			`def get_plaintext_query(cls, query: Page.Query) -> str:`
			`if query.album is None:`
			`return f"{query.artist or ''} - {query.song or ''}"`
continued musify scraper 2023-03-16 13:36:49 +00:00			`return f"{query.artist or ''} - {query.album or ''} - {query.song or '*'}"`
Create musify.py 2023-03-13 14:47:38 +00:00
			`@classmethod`
Update musify.py 2023-03-14 13:48:03 +00:00			`def get_soup_of_search(cls, query: str, trie=0) -> Optional[BeautifulSoup]:`
			`url = f"https://musify.club/search?searchText={query}"`
			`LOGGER.debug(f"Trying to get soup from {url}")`
			`try:`
			`r = cls.API_SESSION.get(url, timeout=15)`
			`except requests.exceptions.Timeout:`
			`return None`
			`if r.status_code != 200:`
			`if r.status_code in [503] and trie < cls.TRIES:`
			`LOGGER.warning(f"youtube blocked downloading. ({trie}-{cls.TRIES})")`
			`LOGGER.warning(f"retrying in {cls.TIMEOUT} seconds again")`
			`time.sleep(cls.TIMEOUT)`
			`return cls.get_soup_of_search(query, trie=trie + 1)`

			`LOGGER.warning("too many tries, returning")`
			`return None`
			`return BeautifulSoup(r.content, features="html.parser")`
Update musify.py 2023-03-14 13:58:54 +00:00
			`@classmethod`
df 2023-03-15 19:55:28 +00:00			`def parse_artist_contact(cls, contact: BeautifulSoup) -> Artist:`
			`source_list: List[Source] = []`
			`name = ""`
			`_id = None`

			`# source`
			`anchor = contact.find("a")`
			`if anchor is not None:`
			`href = anchor.get("href")`
			`name = anchor.get("title")`

			`if "-" in href:`
			`_id = href.split("-")[-1]`

			`source_list.append(Source(cls.SOURCE_TYPE, cls.HOST + href))`

			`# artist image`
			`image_soup = contact.find("img")`
			`if image_soup is not None:`
			`alt = image_soup.get("alt")`
			`if alt is not None:`
			`name = alt`

			`artist_thumbnail = image_soup.get("src")`

			`return Artist(`
			`_id=_id,`
			`name=name,`
			`source_list=source_list`
			`)`

			`@classmethod`
			`def parse_album_contact(cls, contact: BeautifulSoup) -> Album:`
continued musify scraper 2023-03-16 13:36:49 +00:00			`"""`
			`parsing following html:`

			```html
			`<div class="contacts__item">`
			`<a href="/release/ghost-bath-ghost-bath-2013-602489" title="Ghost Bath - 2013">`

			`<div class="contacts__img release">`
			`<img alt="Ghost Bath" class="lozad" data-src="https://37s.musify.club/img/69/9060265/24178833.jpg"/>`
			`<noscript><img alt="Ghost Bath" src="https://37s.musify.club/img/69/9060265/24178833.jpg"/></noscript>`
			`</div>`

			`<div class="contacts__info">`
			`<strong>Ghost Bath - 2013</strong>`
			`<small>Ghost Bath</small>`
			`<small>Треков: 4</small> <!--tracks-->`
			`<small><i class="zmdi zmdi-star zmdi-hc-fw"></i> 9,04</small>`
			`</div>`
			`</a>`
			`</div>`
			```
			`"""`

			`source_list: List[Source] = []`
			`title = ""`
			`_id = None`
			`year = None`
			`artist_list: List[Artist] = []`

			`def parse_title_date(title_date: Optional[str], delimiter: str = " - "):`
			`if title_date is None:`
			`return`

			`title_date = title_date.strip()`
			`split_attr = title_date.split(delimiter)`

			`if len(split_attr) < 2:`
			`return`
			`if not split_attr[-1].isdigit():`
			`return`

			`year = int(split_attr[-1])`
			`title = delimiter.join(split_attr[:-1])`

			`# source`
			`anchor = contact.find("a")`
			`if anchor is not None:`
			`href = anchor.get("href")`

			`# get the title and year`
			`parse_title_date(anchor.get("title"))`


			`if "-" in href:`
			`_id = href.split("-")[-1]`

			`source_list.append(Source(cls.SOURCE_TYPE, cls.HOST + href))`

			`# cover art`
			`image_soup = contact.find("img")`
			`if image_soup is not None:`
			`alt = image_soup.get("alt")`
			`if alt is not None:`
			`title = alt`

			`cover_art = image_soup.get("src")`

			`contact_info_soup = contact.find("div", {"class": "contacts__info"})`
			`if contact_info_soup is not None:`
			`"""`
			`<strong>Ghost Bath - 2013</strong>`
			`<small>Ghost Bath</small>`
			`<small>Треков: 4</small> <!--tracks-->`
			`<small><i class="zmdi zmdi-star zmdi-hc-fw"></i> 9,04</small>`
			`"""`

			`title_soup = contact_info_soup.find("strong")`
			`if title_soup is None:`
			`parse_title_date(title_soup)`

			`small_list = contact_info_soup.find_all("small")`
			`if len(small_list) == 3:`
			`# artist`
			`artist_soup: BeautifulSoup = small_list[0]`
			`raw_artist_str = artist_soup.text`

			`for artist_str in raw_artist_str.split("&\r\n"):`
			`artist_str = artist_str.rstrip("& ...\r\n")`
			`artist_str = artist_str.strip()`

			`artist_list.append(Artist(name=artist_str))`

			`track_count_soup: BeautifulSoup = small_list[1]`
			`rating_soup: BeautifulSoup = small_list[2]`
			`else:`
			`LOGGER.warning("got an unequal ammount than 3 small elements")`



			`return Album(`
			`_id=_id,`
			`title=title,`
			`source_list=source_list,`
			`date=ID3Timestamp(year=year),`
			`artist_list=artist_list`
			`)`
df 2023-03-15 19:55:28 +00:00
			`@classmethod`
			`def parse_contact_container(cls, contact_container_soup: BeautifulSoup) -> List[Union[Artist, Album]]:`
continued musify scraper 2023-03-16 13:36:49 +00:00			`#print(contact_container_soup.prettify)`
df 2023-03-15 19:55:28 +00:00			`contacts = []`

			`# print(contact_container_soup)`

			`contact: BeautifulSoup`
			`for contact in contact_container_soup.find_all("div", {"class": "contacts__item"}):`

			`anchor_soup = contact.find("a")`
continued musify scraper 2023-03-16 13:36:49 +00:00
df 2023-03-15 19:55:28 +00:00			`if anchor_soup is not None:`
			`url = anchor_soup.get("href")`
continued musify scraper 2023-03-16 13:36:49 +00:00
df 2023-03-15 19:55:28 +00:00			`if url is not None:`
continued musify scraper 2023-03-16 13:36:49 +00:00			`#print(url)`
df 2023-03-15 19:55:28 +00:00			`if "artist" in url:`
			`contacts.append(cls.parse_artist_contact(contact))`
			`elif "release" in url:`
			`contacts.append(cls.parse_album_contact(contact))`
			`return contacts`

			`@classmethod`
			`def parse_playlist_soup(cls, playlist_soup: BeautifulSoup) -> List[Song]:`
			`# print(playlist_soup.prettify)`
			`return []`
Create musify.py 2023-03-13 14:47:38 +00:00
			`@classmethod`
continued musify scraper 2023-03-16 13:36:49 +00:00			`def plaintext_search(cls, query: str) -> Options:`
df 2023-03-15 19:55:28 +00:00			`search_results = []`

Update musify.py 2023-03-14 13:48:03 +00:00			`search_soup = cls.get_soup_of_search(query=query)`
			`if search_soup is None:`
			`return None`

			`# album and songs`
			`# child of div class: contacts row`
df 2023-03-15 19:55:28 +00:00			`for contact_container_soup in search_soup.find_all("div", {"class": "contacts"}):`
			`search_results.extend(cls.parse_contact_container(contact_container_soup))`
Update musify.py 2023-03-14 13:48:03 +00:00
			`# song`
			`# div class: playlist__item`
			`for playlist_soup in search_soup.find_all("div", {"class": "playlist"}):`
df 2023-03-15 19:55:28 +00:00			`search_results.extend(cls.parse_playlist_soup(playlist_soup))`
Update musify.py 2023-03-14 13:48:03 +00:00
continued musify scraper 2023-03-16 13:36:49 +00:00			`return Options(search_results)`
Create musify.py 2023-03-13 14:47:38 +00:00
			`@classmethod`
			`def fetch_album_details(cls, album: Album, flat: bool = False) -> Album:`

			`return album`

			`@classmethod`
			`def fetch_song_details(cls, song: Song, flat: bool = False) -> Song:`
			`source_list = song.source_collection.get_sources_from_page(cls.SOURCE_TYPE)`
			`if len(source_list) == 0:`
			`return song`

			`"""`
			`TODO`
			`lyrics`
			`"""`

			`return song`