AI로 논문 쓰기 - ChatGPT를 이용한 데이터 준비와 정리

AI로 논문 쓰기 - ChatGPT를 이용한 데이터 준비와 정리

avatar
뎡의
2025.06.18조회수 24회

강의 내용 chatGPT 정리본. 강의 내용 보다는 결국 이런 것들을 chatGPT로 할 수 있다는데 의미가 있는 듯 하다. 가상 데이터를 만들어서 이런 작업들을 실제로 해보고 익숙해지는데 포인트를 둬야 할 듯.


ChatGPT를 이용한 Data 분석


1. GPT-4.0과 Code Interpreter의 등장

  • GPT-4.0의 Code Interpreter 기능은 데이터 분석의 판도를 바꿨음.

    • 단순한 대화형 응답을 넘어, 실제 데이터 가공, 분석, 시각화까지 자동화 가능.

    • CSV, XLSX, JSON 등 다양한 포맷의 파일을 업로드하여 처리 가능.

  • 예시: 통계적 유의성 검정, 데이터 전처리, 그래프 시각화까지 하나의 창에서 수행.

2. 사용자 맞춤 설정 (Custom Instructions)의 중요성

  • GPT에 사용자의 정체성과 의도를 명확히 전달하면, 보다 정교한 결과 가능.

    • 예: "나는 의사이며, 의학 논문을 쓰기 위한 evidence-based한 분석을 원한다."

  • 이 설정은 의료 데이터 처리 시 GPT의 응답 품질과 방향성을 정하는 데 큰 역할을 함.

3. 개인정보 보호와 데이터 보안

  • 의료 데이터, 임상 기록 등 민감한 정보를 다룰 경우 개인정보 유출 위험 존재.

  • 반드시 설정에서 아래 조치 필요:

    • 설정 → 데이터 제어 → 모두를 위한 모델 개선해제 (Off)

      • → 이 설정을 끄면, 대화 내용이 OpenAI의 학습에 사용되지 않음.

  • 주의: 이 설정을 해제하더라도 클라우드 환경이므로, 완전한 보안을 위해 가명처리 및 민감정보 제거가 필요함.

4. 프로젝트 기능의 활용

  • GPT의 신규 기능인 ‘프로젝트(Project)’ 기능을 활용하면, 연관된 대화들을 하나의 주제로 정리 가능.

    • 예: ‘논문 작성’ 프로젝트 안에, 관련된 데이터 분석, 주제 정리, 문장 첨삭 대화들을 모아둘 수 있음.

  • 장점:

    • 주제별 관리로 맥락 유지작업 연속성 확보 가능

    • 대화의 단절 없이 문맥 기반 작업 진행 가능

  • 제한사항:

    • GPTs(사용자 정의 GPT)와 나눈 대화는 아직 프로젝트에 포함 불가

      • → 이 기능은 현재 표준 ChatGPT 창에서만 제공됨.

Data 분석을 위한 GPTs


GPTs를 활용

  • 예시로, R 패키지에도 존재하는 Table 1 (baseline characteristics)을 생성하는 GPT를 만들어 보자.

  • 핵심은 프롬프트를 통해 GPT가 수행할 논리 구조(logic)를 제공하고, 정해진 분석 기능을 자동화시키는 데 있음.

GPT 프롬프트 설계 예시

  1. 이 GPT는 Table 1 (baseline characteristics) 테이블을 만들기 위한 것입니다.

  2. 데이터를 받아 연속형 변수와 범주형 변수를 구분하여 보고합니다.

  3. 어떤 변수들에 대해 테이블을 만들 것인지 사용자에게 묻습니다.

  4. 연속형 변수는 mean ± SD 형식으로 소수점 1자리, 범주형 변수는 N (%) 형식으로 출력하며, p-value는 소수점 3자리로 표현합니다.

  5. 연속형 변수는 정규성 검정(normality test)을 통해 t-test 또는 Mann-Whitney U test를 선택하여 적용합니다.

  6. 범주형 변수는 카이제곱 검정 또는 Fisher의 정확 검정 중 적절한 검정을 수행합니다.

  7. 결과 테이블을 제시한 후, 어떤 파일 형식으로 다운로드할지 사용자에게 묻습니다.

Tip

  • 예시 테이블을 업로드할 경우, 해당 구조를 학습한 GPT에게 "이 형식으로 생성해달라"고 요청 가능.

  • 반복적 분석 업무에 GPT를 활용하면 형식화된 통계표 자동화에 효과적임.

ChatGPT로 가상 데이터 만들기


가상 데이터 생성의 활용 목적

  • 의학 연구를 위한 연습 또는 개발을 위해 실제 환자 데이터 없이도 가상 데이터를 생성하여 사용할 수 있음.

  • ChatGPT를 활용하면, 구조화된 가상 데이터를 생성하고 이를 분석하는 전 과정을 자동화할 수 있음.

1. 목적 정의

  • 데이터를 사용하는 목적과 필요성을 명확히 정의함.

    • 예시: 연구 설계 연습, 통계 모델 훈련, 논문 제출용 시뮬레이션, 교육자료 등

2. 데이터 구조 설정

  • 생성할 데이터의 구조를 ...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

이미 계정이 있으신가요?로그인하기
댓글 0
avatar
뎡의
구독자 26명구독중 7명
Bridging the gap between Medical Reality and AI Potential.