dataloader/src/data_loader.py

import sys

running_which_env='prd'


from os.path import dirname, abspath, join
ROOT_DIR = abspath(join(dirname(abspath(__file__)), ".."))
from loguru import logger
logger.remove()
logger.add(sys.stderr, level="INFO")
logger.add(ROOT_DIR+"/logs/{time:YYYYMMDD-HHmmss}"+f"_{running_which_env}.log", rotation="10 MB", compression="zip", level="DEBUG")


import pandas as pd

from DDBfm import DDBfm
from TSLfm import TSLfm

from code_list import code_list_pickel

def run_add_1day_code_init_minKline(date,code_list):
    ddb = DDBfm(running_which_env)

    code_list_filtered = []
    for code in code_list:
        if ddb.search_code_date_in_tb(ddb.ddf_hft_mink_tbname,date,code):
            logger.warning(f"Possible duplicates on {date} and {code}")
        else:
            code_list_filtered.append(code)
    if len(code_list_filtered)==0:
        return 0

    with TSLfm() as tsl:
        df = tsl.process_result_data_type(tsl.get_mkt_min_k(date,date,code_list_filtered))
    if not df.empty:
        logger.info(f'Getting a df of {df.shape}: {code_list[0][:-4]} on {date}')
        ddb.append_hft_table(ddb.ddf_hft_mink_tbname,df)
    
# def run_pool_add_byday_code_init_minKline(date_list,code_list):
#     df_list=[]
#     code_list_filtered=code_list
#     ddb1 = DDBfm(running_which_env)

#     tb=ddb1.load_tb(tableName=ddb1.ddf_hft_mink_tbname)
#     # tb=ddb1.sess.loadTable(dbPath=ddb1.ddb_hft_dbPath, tableName=ddb1.ddf_hft_mink_tbname)
#     for date in date_list:
#         with TSLfm() as tsl:
#             df = tsl.process_result_data_type(tsl.get_mkt_min_k(date,date,code_list))
#         if df.empty:
#             continue

#         code_list_filtered = ddb1.get_missing_code_date_in_tb(tb,date,code_list)
#         if len(code_list_filtered)==0:
#             continue
#         logger.info(f"getting {'+'.join(code_list_filtered)} on {date}")

#         df=df[df['code'].isin(code_list_filtered)]
#         df_list.append(df)
#     ddb1.close_sess()
#     del ddb1

#     if df_list:
#         df_all = pd.concat(df_list)

#         ddb2 = DDBfm(running_which_env,pool=True)
#         logger.info(f'Getting a df of {df_all.shape}: {code_list[0][:-4]} on {"+".join(date_list)}')
#         ddb2.append_pool_hft_table(ddb2.ddf_hft_mink_tbname,df_all)
#         ddb2.clear_pool()
#         del ddb2


def run_pool_add_byday_code_init_tick(date_list,code_list):
    df_list=[]
    code_list_filtered=code_list
    for date in date_list:

        ddb1 = DDBfm(running_which_env)
        code_list_filtered = ddb1.get_missing_code_date_in_tb(ddb1.ddf_hft_mink_tbname,date,code_list)
        if len(code_list_filtered)==0:
            continue
        logger.info(f"getting {'+'.join(code_list_filtered)} on {date}")
        ddb1.close_sess()
        del ddb1

        with TSLfm() as tsl:
            df = tsl.process_result_data_type(tsl.get_trade_tick(date,date,code_list_filtered))
        if not df.empty:
            df_list.append(df)
    df_all = pd.concat(df_list)

    ddb2 = DDBfm(running_which_env,pool=True)
    logger.info(f'Getting a df of {df_all.shape}: {code_list[0][:-4]} on {"+".join(date_list)}')
    ddb2.append_pool_hft_table(ddb2.ddf_hft_tick_tbname,df_all)
    ddb2.close_sess()
    del ddb2


def run_create_hft_db(date = '20221101'):

    ddb = DDBfm(running_which_env)
    ddb.create_hft_database()

    with TSLfm() as tsl:
        code_list=['T2212']
        df_mink = tsl.process_result_data_type(tsl.get_mkt_min_k(date,date,code_list))
        # print(df)
    ddb.create_hft_table(ddb.ddf_hft_mink_tbname,df_mink)

    with TSLfm() as tsl:
        code_list=['T2212']
        df_tick = tsl.process_result_data_type(tsl.get_trade_tick(date,date,code_list))
        # print(df)

    ddb.create_hft_table(ddb.ddf_hft_tick_tbname,df_tick)


def run():

    all_code_dict_by_init={}
    for c in code_list_pickel:
        init = c[:-4]
        if init in all_code_dict_by_init:
            all_code_dict_by_init[init].append(c)
        else:
            all_code_dict_by_init[init]=[c]

    # print(all_code_dict_by_init)

    start_date='2022-09-30'
    end_date='2022-10-31'
    allDates = pd.date_range(start_date, end_date, freq ='D')
    allDates = [i.replace('-','') for i in list(allDates.astype('str'))]

    for date in allDates:
        for ind,code_init in enumerate(all_code_dict_by_init):
            logger.info(f"Getting {code_init} (no.{ind})")
            code_list = all_code_dict_by_init[code_init]

            run_add_1day_code_init_minKline(date,code_list)


def run_pool_dates_by_code_init_n_group(typ='mink',group_amount=10,start_date='20220101',end_date='20221031'):
    logger.info("Running run_pool_dates_by_group")
    all_code_dict_by_init={}
    for c in code_list_pickel:
        init = c[:-4]
        if init in all_code_dict_by_init:
            all_code_dict_by_init[init].append(c)
        else:
            all_code_dict_by_init[init]=[c]

    # print(all_code_dict_by_init)


    allDates = pd.date_range(start_date, end_date, freq ='D')
    dates_dict_by_day={}

    for d in list(allDates.astype('str')):
        group_no = int(d[-2:])%group_amount
        if group_no not in dates_dict_by_day:
            dates_dict_by_day[group_no] = [d.replace('-','')]
        else:
            dates_dict_by_day[group_no].append(d.replace('-',''))

    logger.debug(dates_dict_by_day)


    for group_no in dates_dict_by_day:
        date_list=dates_dict_by_day[group_no]
        num_of_init = len(all_code_dict_by_init)
        for ind,code_init in enumerate(all_code_dict_by_init):
            # done: 'T','TS','TS','TF'
            if code_init  in ['T']: # todo filtered this ,,'TF', 'IC','IF','IH','IM'
                logger.info(f"Getting {code_init} (no.{ind}/{num_of_init} of group {group_no}/{group_amount})")
                code_list = all_code_dict_by_init[code_init]
                if typ=='mink':
                    # logger.info('Running mink')
                    logger.error('mink by day to be fixed')

                    # run_pool_add_byday_code_init_minKline(date_list,code_list)
                elif typ=='tick':
                    logger.info('Running tick')
                    run_pool_add_byday_code_init_tick(date_list,code_list)


if __name__ == '__main__':
    # run()
    
    # run_create_hft_db() # including two tables

    import time
    tic = time.perf_counter()
    run_pool_dates_by_code_init_n_group(typ='tick')
    # run_pool_dates_by_code_init_n_group(typ='mink',group_amount=5)

    toc = time.perf_counter()

    logger.info(f"Running used {toc - tic:0.4f} seconds")

    # all t taks  Running used 588.5782 seconds for 10 months
    # 600/60=10 min 12min for take code_init
    # 12* 71 = 850 min / 60 = 15 hr for all code for each year
things work rn 2 years ago			`import sys`

updated methods 2 years ago			`running_which_env='prd'`


things work rn 2 years ago			`from os.path import dirname, abspath, join`
			`ROOT_DIR = abspath(join(dirname(abspath(__file__)), ".."))`
			`from loguru import logger`
			`logger.remove()`
			`logger.add(sys.stderr, level="INFO")`
somehow is running eeeee 2 years ago			`logger.add(ROOT_DIR+"/logs/{time:YYYYMMDD-HHmmss}"+f"_{running_which_env}.log", rotation="10 MB", compression="zip", level="DEBUG")`
updated methods 2 years ago

			`import pandas as pd`
things work rn 2 years ago
			`from DDBfm import DDBfm`
			`from TSLfm import TSLfm`

updated methods 2 years ago			`from code_list import code_list_pickel`
things work rn 2 years ago
updated methods 2 years ago			`def run_add_1day_code_init_minKline(date,code_list):`
			`ddb = DDBfm(running_which_env)`
things work rn 2 years ago
single adding working 2 years ago			`code_list_filtered = []`
updated methods 2 years ago			`for code in code_list:`
			`if ddb.search_code_date_in_tb(ddb.ddf_hft_mink_tbname,date,code):`
			`logger.warning(f"Possible duplicates on {date} and {code}")`
single adding working 2 years ago			`else:`
			`code_list_filtered.append(code)`
			`if len(code_list_filtered)==0:`
			`return 0`

			`with TSLfm() as tsl:`
			`df = tsl.process_result_data_type(tsl.get_mkt_min_k(date,date,code_list_filtered))`
			`if not df.empty:`
			`logger.info(f'Getting a df of {df.shape}: {code_list[0][:-4]} on {date}')`
			`ddb.append_hft_table(ddb.ddf_hft_mink_tbname,df)`
updated methods 2 years ago
somehow is running eeeee 2 years ago			`# def run_pool_add_byday_code_init_minKline(date_list,code_list):`
			`# df_list=[]`
			`# code_list_filtered=code_list`
			`# ddb1 = DDBfm(running_which_env)`

			`# tb=ddb1.load_tb(tableName=ddb1.ddf_hft_mink_tbname)`
			`# # tb=ddb1.sess.loadTable(dbPath=ddb1.ddb_hft_dbPath, tableName=ddb1.ddf_hft_mink_tbname)`
			`# for date in date_list:`
			`# with TSLfm() as tsl:`
			`# df = tsl.process_result_data_type(tsl.get_mkt_min_k(date,date,code_list))`
			`# if df.empty:`
			`# continue`

			`# code_list_filtered = ddb1.get_missing_code_date_in_tb(tb,date,code_list)`
			`# if len(code_list_filtered)==0:`
			`# continue`
			`# logger.info(f"getting {'+'.join(code_list_filtered)} on {date}")`

			`# df=df[df['code'].isin(code_list_filtered)]`
			`# df_list.append(df)`
			`# ddb1.close_sess()`
			`# del ddb1`

			`# if df_list:`
			`# df_all = pd.concat(df_list)`

			`# ddb2 = DDBfm(running_which_env,pool=True)`
			`# logger.info(f'Getting a df of {df_all.shape}: {code_list[0][:-4]} on {"+".join(date_list)}')`
			`# ddb2.append_pool_hft_table(ddb2.ddf_hft_mink_tbname,df_all)`
			`# ddb2.clear_pool()`
			`# del ddb2`


			`def run_pool_add_byday_code_init_tick(date_list,code_list):`
			`df_list=[]`
			`code_list_filtered=code_list`
			`for date in date_list:`

			`ddb1 = DDBfm(running_which_env)`
			`code_list_filtered = ddb1.get_missing_code_date_in_tb(ddb1.ddf_hft_mink_tbname,date,code_list)`
			`if len(code_list_filtered)==0:`
			`continue`
			`logger.info(f"getting {'+'.join(code_list_filtered)} on {date}")`
			`ddb1.close_sess()`
			`del ddb1`

			`with TSLfm() as tsl:`
			`df = tsl.process_result_data_type(tsl.get_trade_tick(date,date,code_list_filtered))`
			`if not df.empty:`
			`df_list.append(df)`
			`df_all = pd.concat(df_list)`

			`ddb2 = DDBfm(running_which_env,pool=True)`
			`logger.info(f'Getting a df of {df_all.shape}: {code_list[0][:-4]} on {"+".join(date_list)}')`
			`ddb2.append_pool_hft_table(ddb2.ddf_hft_tick_tbname,df_all)`
			`ddb2.close_sess()`
			`del ddb2`


			`def run_create_hft_db(date = '20221101'):`

			`ddb = DDBfm(running_which_env)`
			`ddb.create_hft_database()`

updated methods 2 years ago			`with TSLfm() as tsl:`
single adding working 2 years ago			`code_list=['T2212']`
somehow is running eeeee 2 years ago			`df_mink = tsl.process_result_data_type(tsl.get_mkt_min_k(date,date,code_list))`
updated methods 2 years ago			`# print(df)`
somehow is running eeeee 2 years ago			`ddb.create_hft_table(ddb.ddf_hft_mink_tbname,df_mink)`

			`with TSLfm() as tsl:`
			`code_list=['T2212']`
			`df_tick = tsl.process_result_data_type(tsl.get_trade_tick(date,date,code_list))`
			`# print(df)`

			`ddb.create_hft_table(ddb.ddf_hft_tick_tbname,df_tick)`


updated methods 2 years ago
			`def run():`

			`all_code_dict_by_init={}`
			`for c in code_list_pickel:`
			`init = c[:-4]`
			`if init in all_code_dict_by_init:`
			`all_code_dict_by_init[init].append(c)`
			`else:`
			`all_code_dict_by_init[init]=[c]`

			`# print(all_code_dict_by_init)`

single adding working 2 years ago			`start_date='2022-09-30'`
somehow is running eeeee 2 years ago			`end_date='2022-10-31'`
updated methods 2 years ago			`allDates = pd.date_range(start_date, end_date, freq ='D')`
			`allDates = [i.replace('-','') for i in list(allDates.astype('str'))]`

			`for date in allDates:`
somehow is running eeeee 2 years ago			`for ind,code_init in enumerate(all_code_dict_by_init):`
			`logger.info(f"Getting {code_init} (no.{ind})")`
updated methods 2 years ago			`code_list = all_code_dict_by_init[code_init]`

			`run_add_1day_code_init_minKline(date,code_list)`




somehow is running eeeee 2 years ago			`def run_pool_dates_by_code_init_n_group(typ='mink',group_amount=10,start_date='20220101',end_date='20221031'):`
			`logger.info("Running run_pool_dates_by_group")`
			`all_code_dict_by_init={}`
			`for c in code_list_pickel:`
			`init = c[:-4]`
			`if init in all_code_dict_by_init:`
			`all_code_dict_by_init[init].append(c)`
			`else:`
			`all_code_dict_by_init[init]=[c]`

			`# print(all_code_dict_by_init)`


			`allDates = pd.date_range(start_date, end_date, freq ='D')`
			`dates_dict_by_day={}`

			`for d in list(allDates.astype('str')):`
			`group_no = int(d[-2:])%group_amount`
			`if group_no not in dates_dict_by_day:`
			`dates_dict_by_day[group_no] = [d.replace('-','')]`
			`else:`
			`dates_dict_by_day[group_no].append(d.replace('-',''))`

			`logger.debug(dates_dict_by_day)`


			`for group_no in dates_dict_by_day:`
			`date_list=dates_dict_by_day[group_no]`
			`num_of_init = len(all_code_dict_by_init)`
			`for ind,code_init in enumerate(all_code_dict_by_init):`
			`# done: 'T','TS','TS','TF'`
			`if code_init in ['T']: # todo filtered this ,,'TF', 'IC','IF','IH','IM'`
			`logger.info(f"Getting {code_init} (no.{ind}/{num_of_init} of group {group_no}/{group_amount})")`
			`code_list = all_code_dict_by_init[code_init]`
			`if typ=='mink':`
			`# logger.info('Running mink')`
			`logger.error('mink by day to be fixed')`

			`# run_pool_add_byday_code_init_minKline(date_list,code_list)`
			`elif typ=='tick':`
			`logger.info('Running tick')`
			`run_pool_add_byday_code_init_tick(date_list,code_list)`

things work rn 2 years ago

			`if __name__ == '__main__':`
somehow is running eeeee 2 years ago			`# run()`

			`# run_create_hft_db() # including two tables`

			`import time`
			`tic = time.perf_counter()`
			`run_pool_dates_by_code_init_n_group(typ='tick')`
			`# run_pool_dates_by_code_init_n_group(typ='mink',group_amount=5)`

			`toc = time.perf_counter()`

			`logger.info(f"Running used {toc - tic:0.4f} seconds")`

			`# all t taks Running used 588.5782 seconds for 10 months`
			`# 600/60=10 min 12min for take code_init`
			`# 12* 71 = 850 min / 60 = 15 hr for all code for each year`