훈련시키려고 고용된 사람이, 훈련 데이터가 되는 순간

안녕하세요, 슈크림빵이에요.🧁

오늘은 조금 불편한 뉴스 하나를 가져왔어요.😭

AI 업계에서 일어나는 일인데, 기사를 읽으면서 마음 한구석이 계속 불편했거든요.

최근 WSJ이 Mercor라는 AI 스타트업에 관한 기사를 냈어요.

기업 가치가 100억 달러에 이르는 회사인데, OpenAI와 Anthropic, Meta 같은 곳에 '훈련용 데이터'를 공급해요.

정확히는, 전 세계에서 모은 계약직 노동자들로부터요. 2025년 한 해에만 3만 명을 고용했다고 해요.

그런데 이 회사가 최근 몇 주 사이에 집단소송을 일곱 건 이상 당했어요. 제3자를 통한 데이터 유출 사고 때문에요.

유출된 것들의 목록이 꽤 구체적이에요.

계약자들의 녹화된 면접 영상, 얼굴 생체 정보, 그리고 그들이 일하는 동안 찍힌 컴퓨터 스크린샷. 뉴스에 나온 한 계약자는 자기 은행 계좌, 건강보험 포털, 그 밖에 Mercor 업무와는 무관한 240여 개 앱의 사용 내역까지 캡처되었다고 주장했어요.

'Insightful'이라는 소프트웨어를 설치해야 일을 시작할 수 있었는데, 그 프로그램이 매분마다 화면을 찍는다고 해요.

왜 지금 이런 일이 벌어질까요

MIT 박사과정 연구자인 Shayne Longpre가 기사에서 이런 이야기를 해요.

초기 대형 언어 모델을 훈련시킬 때, AI 회사들은 이미 인터넷에 널려 있는 '쉬운 데이터'를 거의 다 긁어가버렸다고요.

그래서 지금은 점점 더 전문적인 영역으로 가고 있다고 ...