1. 사전 데이터셋 준비하기

  1. Hub에서 데이터셋을 골라줍니다.

    https://huggingface.co/datasets

  1. 그렇게 위에서 가져온 데이터셋을 builder를 이용해 다운로드 하지않고 정보를 확인할 수 있습니다.

    from datasets import load_dataset_builder
    ds_builder = load_dataset_builder("불러올 데이터셋 이름")
    
    ds_builder.info.description     # 데이터셋 설명 나옴
    ds_builder.info.features        # 데이터셋 특징 설명
    
  2. 위에 2. 3. 에서 알맞은 데이터 셋을 찾았다면 load 함수를 이용하여 불러와 줍니다.

  1. 악성 코드가 실행되지 않도록 데이터 세트 로딩 스크립트와 작성자를 검토해야 합니다. 로드 스크립트와 데이터세트를 사용하려면 trust_remote_code=True 속성을 설정해주어야 합니다.

    from datasets import get_dataset_config_names, get_dataset_split_names, load_dataset
    
    c4 = load_dataset("c4", "en", split="train", trust_remote_code=True)
    

데이터세트 종류

2. 파이토치 Trainer로 훈련하기


LLaMA-Factory를 이용한 학습

https://qwen.readthedocs.io/en/latest/training/SFT/llama_factory.html