music-kraken-core/src/download_links.py

import json
import os.path
import pandas as pd
import requests
import logging

import musify
import youtube_music


class Download:
    def __init__(self, metadata_csv: str = ".cache1.csv", session: requests.Session = requests.Session(),
                 file: str = ".cache2.csv", temp: str = "temp") -> None:
        self.temp = temp
        self.metadata = pd.read_csv(os.path.join(self.temp, metadata_csv), index_col=0)

        self.urls = []

        for idx, row in self.metadata.iterrows():
            row['artist'] = json.loads(row['artist'].replace("'", '"'))
            
            # check musify
            musify_url = musify.get_musify_url(row)
            if musify_url is not None:
                self.add_url(musify_url, 'musify', dict(row))
                continue

            # check youtube
            youtube_url = youtube_music.get_youtube_url(row)
            if youtube_url is not None:
                self.add_url(youtube_url, 'youtube', dict(row))
                continue

            # check musify again, but with a diffrent methode that takes longer
            musify_url = musify.get_musify_url_slow(row)
            if musify_url is not None:
                self.add_url(musify_url, 'musify', dict(row))
                continue

            logging.warning(f"Didn't find any sources for {row['title']}")

        self.dump_urls(file)
    

    def add_url(self, url: str, src: str, row: dict):
        row['url'] = url
        row['src'] = src

        self.urls.append(row)


    def dump_urls(self, file: str = ".cache2.csv"):
        df = pd.DataFrame(self.urls)
        df.to_csv(os.path.join(self.temp, file))


if __name__ == "__main__":
    proxies = {
        'http': 'socks5h://127.0.0.1:9150',
        'https': 'socks5h://127.0.0.1:9150'
    }

    s = requests.Session()
    s.proxies = proxies
    download = Download(session=s)
dfsa 2022-10-17 22:27:30 +00:00			`import json`
finished the urs and paths. Now just need to download stuff 2022-10-17 17:28:33 +00:00			`import os.path`
started link getter 2022-10-17 12:56:32 +00:00			`import pandas as pd`
			`import requests`
dfsa 2022-10-17 22:27:30 +00:00			`import logging`
started link getter 2022-10-17 12:56:32 +00:00
added youtube as music src 2022-10-20 13:13:19 +00:00			`import musify`
			`import youtube_music`

finished the urs and paths. Now just need to download stuff 2022-10-17 17:28:33 +00:00
started link getter 2022-10-17 12:56:32 +00:00			`class Download:`
finished the urs and paths. Now just need to download stuff 2022-10-17 17:28:33 +00:00			`def __init__(self, metadata_csv: str = ".cache1.csv", session: requests.Session = requests.Session(),`
			`file: str = ".cache2.csv", temp: str = "temp") -> None:`
			`self.temp = temp`
			`self.metadata = pd.read_csv(os.path.join(self.temp, metadata_csv), index_col=0)`

semi finished the fetching of download links from musify 2022-10-17 13:49:20 +00:00			`self.urls = []`
started link getter 2022-10-17 12:56:32 +00:00
added youtube as music src 2022-10-20 13:13:19 +00:00			`for idx, row in self.metadata.iterrows():`
			`row['artist'] = json.loads(row['artist'].replace("'", '"'))`

			`# check musify`
			`musify_url = musify.get_musify_url(row)`
			`if musify_url is not None:`
			`self.add_url(musify_url, 'musify', dict(row))`
			`continue`
semi finished the fetching of download links from musify 2022-10-17 13:49:20 +00:00
added youtube as music src 2022-10-20 13:13:19 +00:00			`# check youtube`
			`youtube_url = youtube_music.get_youtube_url(row)`
			`if youtube_url is not None:`
			`self.add_url(youtube_url, 'youtube', dict(row))`
			`continue`
semi finished the fetching of download links from musify 2022-10-17 13:49:20 +00:00
added a slower method to get stuff from musify, which in comperason takes longer though 2022-10-25 15:59:33 +00:00			`# check musify again, but with a diffrent methode that takes longer`
			`musify_url = musify.get_musify_url_slow(row)`
			`if musify_url is not None:`
			`self.add_url(musify_url, 'musify', dict(row))`
			`continue`

added youtube as music src 2022-10-20 13:13:19 +00:00			`logging.warning(f"Didn't find any sources for {row['title']}")`
semi finished the fetching of download links from musify 2022-10-17 13:49:20 +00:00
added youtube as music src 2022-10-20 13:13:19 +00:00			`self.dump_urls(file)`

dfsa 2022-10-17 22:27:30 +00:00
added youtube as music src 2022-10-20 13:13:19 +00:00			`def add_url(self, url: str, src: str, row: dict):`
			`row['url'] = url`
			`row['src'] = src`
semi finished the fetching of download links from musify 2022-10-17 13:49:20 +00:00
added youtube as music src 2022-10-20 13:13:19 +00:00			`self.urls.append(row)`
finished the urs and paths. Now just need to download stuff 2022-10-17 17:28:33 +00:00
semi finished the fetching of download links from musify 2022-10-17 13:49:20 +00:00
finished the urs and paths. Now just need to download stuff 2022-10-17 17:28:33 +00:00			`def dump_urls(self, file: str = ".cache2.csv"):`
semi finished the fetching of download links from musify 2022-10-17 13:49:20 +00:00			`df = pd.DataFrame(self.urls)`
finished the urs and paths. Now just need to download stuff 2022-10-17 17:28:33 +00:00			`df.to_csv(os.path.join(self.temp, file))`

started link getter 2022-10-17 12:56:32 +00:00
			`if __name__ == "__main__":`
dfsa 2022-10-17 22:27:30 +00:00			`proxies = {`
			`'http': 'socks5h://127.0.0.1:9150',`
			`'https': 'socks5h://127.0.0.1:9150'`
			`}`

			`s = requests.Session()`
			`s.proxies = proxies`
			`download = Download(session=s)`