AI로 논문 쓰기 - ChatGPT를 이용한 데이터 준비와 정리

강의 내용 chatGPT 정리본. 강의 내용 보다는 결국 이런 것들을 chatGPT로 할 수 있다는데 의미가 있는 듯 하다. 가상 데이터를 만들어서 이런 작업들을 실제로 해보고 익숙해지는데 포인트를 둬야 할 듯.

1. GPT-4.0과 Code Interpreter의 등장

GPT-4.0의 Code Interpreter 기능은 데이터 분석의 판도를 바꿨음.
- 단순한 대화형 응답을 넘어, 실제 데이터 가공, 분석, 시각화까지 자동화 가능.
- CSV, XLSX, JSON 등 다양한 포맷의 파일을 업로드하여 처리 가능.
예시: 통계적 유의성 검정, 데이터 전처리, 그래프 시각화까지 하나의 창에서 수행.

2. 사용자 맞춤 설정 (Custom Instructions)의 중요성

GPT에 사용자의 정체성과 의도를 명확히 전달하면, 보다 정교한 결과 가능.
- 예: "나는 의사이며, 의학 논문을 쓰기 위한 evidence-based한 분석을 원한다."
이 설정은 의료 데이터 처리 시 GPT의 응답 품질과 방향성을 정하는 데 큰 역할을 함.

3. 개인정보 보호와 데이터 보안

의료 데이터, 임상 기록 등 민감한 정보를 다룰 경우 개인정보 유출 위험 존재.
반드시 설정에서 아래 조치 필요:
- 설정 → 데이터 제어 → 모두를 위한 모델 개선 → 해제 (Off)
  - → 이 설정을 끄면, 대화 내용이 OpenAI의 학습에 사용되지 않음.
주의: 이 설정을 해제하더라도 클라우드 환경이므로, 완전한 보안을 위해 가명처리 및 민감정보 제거가 필요함.

4. 프로젝트 기능의 활용

GPT의 신규 기능인 ‘프로젝트(Project)’ 기능을 활용하면, 연관된 대화들을 하나의 주제로 정리 가능.
- 예: ‘논문 작성’ 프로젝트 안에, 관련된 데이터 분석, 주제 정리, 문장 첨삭 대화들을 모아둘 수 있음.
장점:
- 주제별 관리로 맥락 유지 및 작업 연속성 확보 가능
- 대화의 단절 없이 문맥 기반 작업 진행 가능
제한사항:
- GPTs(사용자 정의 GPT)와 나눈 대화는 아직 프로젝트에 포함 불가
  - → 이 기능은 현재 표준 ChatGPT 창에서만 제공됨.

GPTs를 활용

GPT 프롬프트 설계 예시

이 GPT는 Table 1 (baseline characteristics) 테이블을 만들기 위한 것입니다.
데이터를 받아 연속형 변수와 범주형 변수를 구분하여 보고합니다.
어떤 변수들에 대해 테이블을 만들 것인지 사용자에게 묻습니다.
연속형 변수는 mean ± SD 형식으로 소수점 1자리, 범주형 변수는 N (%) 형식으로 출력하며, p-value는 소수점 3자리로 표현합니다.
연속형 변수는 정규성 검정(normality test)을 통해 t-test 또는 Mann-Whitney U test를 선택하여 적용합니다.
범주형 변수는 카이제곱 검정 또는 Fisher의 정확 검정 중 적절한 검정을 수행합니다.
결과 테이블을 제시한 후, 어떤 파일 형식으로 다운로드할지 사용자에게 묻습니다.

Tip

가상 데이터 생성의 활용 목적

1. 목적 정의

2. 데이터 구조 설정

회원가입만 해도
이 글을 무료로 읽을 수 있어요.