“AI혁명이 데이터 시장까지 재편”

FT,“기업·정부의 독점 데이터와 AI·로봇의 합성데이터가 갈수록 중요”

  • 카카오공유 
  • 메타공유 
  • X공유 
  • 네이버밴드 공유 
  • 프린트
  • 메일
  • 스크랩
  • 목록
  • 글자크기
  • 크게
  • 작게
인공지능(AI) 혁명이 △자연발생 데이터, △기업·정부의 독점 데이터(proprietary data), △AI·로봇의 합성데이터(Synthetic data) 등 3대 데이터 시장을 새롭게 재편하고 있다고 영국 경제지 파이낸셜타임스(FT)가 최근 보도했다. FT에 따르면, 인터넷에 공개된 텍스트·이미지 등 자연발생 데이터는 현재 고갈 위기에 놓여있다. 반면, 기업·정부의 방화벽 안에 있는 연구·제조·고객의 독점 데이터는 ‘새로운 석유’로 부상하고 있다. 이와함께, AI·로봇이 생성한 합성 데이터는 미래 성장 동력으로 예상된다.

데이터는 AI 혁명의 근간이지만, AI 또한 데이터 시장 자체를 혁신하고 있다고 FT는 지적했다. 개발자들은 방대한 AI 시스템을 구동하기 위한 인프라 구축을 위해 수십억 달러를 투자중인 것이 현실. 이러한 급격한 확장은 데이터 수요의 급증을 가져왔고, 기업들이 상당한 경제적 가치를 창출할 잠재력을 만들어냈다.

FT에 따르면, AI 시스템은 일반적으로 세 가지 주요 구성 요소, 즉 전력(power), 연산(compute), 그리고 데이터로 설명된다. 이는 △데이터센터에 전력을 공급하는 전기, △놀라운 속도로 연산을 수행하는 데 필요한 반도체 칩, 그리고 △AI 모델을 훈련시키는 데 필수적인 데이터를 각각 의미한다. 

이 중요한 구성 요소들 중에서 데이터는 가장 소홀히 논의돼 왔다. 데이터센터와 반도체는 만지고 볼 수 있는 물리적이기 때문일 것이기 때문일 것이라고 추정된다. 데이터를 확보하는 것은 빠르게 확장하는 AI 생태계의 필수적인 측면. 일부 추정치에 따르면, 모델 개발자들은 이미 전체 인터넷의 복사본과 같은 공개된 ‘유기적’ 데이터의 한계에 도달했다. 세계는 유기적 데이터가 거의 고갈됐다.

AI 모델이 거대한 데이터 세트로 구축되고 사전 훈련된 후에도, 추가적인 데이터는 필요하다고 FT는 밝혔다. 해당 모델이 특정 질문에 답하거나 문제를 해결하도록 요청받는 ‘테스트 시간 연산(test time compute)’은 올바른 종류의 데이터를 필요로 하기 때문이다. 하지만, 때로는 부족한 경우가 많다. 특히, 인간이 복잡한 문제를 해결하기 위해 “과정을 보여주는” 훈련 데이터가 부족하다. 

이 부분은 기업들이 새롭게 주목받을 수 있는 지점. 집중적이고, 잘 정리되어 있으며, 고도로 논리적인 데이터 세트를 보유하고 있기 때문이다. 예를 들어, 교과서 출판사가 기술 매뉴얼과 교과 과정 아카이브를 사용해 복잡한 과학 과정을 수행하는 AI 시스템을 훈련시키는 것을 상상해 보라고 FT는 지적했다.

최근의 데이터 라이선싱 계약은 다양한 기업들이 AI 기업에 자사 데이터 접근권을 어떻게 판매하고 있는지 보여준다. 기업들이 점점 더 창의적으로 이러한 일을 함에 따라, 추세는 가속화될 것으로 예상된다. 

지금까지는 이러한 거래들이 특별한 조건으로 개별적으로 협상됐다. 하지만, 조만간 훈련 데이터를 위한 데이터 장터(marketplace)나 여러 시장이 출현할 것을 상상할 수 있다고 FT는 강조했다.

합성 데이터, 즉 적어도 부분적으로 AI 시스템에 의해 생성된 데이터는 대규모 언어모델 개발의 핵심적인 부분이다. 새로운 데이터 세트를 찾는 개발자들을 위한 옵션을 확장하는 하나의 경로로 부상했다.

예를 들어, 로봇 기술의 정교화에 따라 AI 시스템은 물리적 환경의 지도를 생성하는 능력이 커지고 있다. 자율주행을 위한 합성 데이터로 로스앤젤레스의 ‘디지털 쌍둥이(digital twin)’ 구축이 가능하다. 수백만 개의 ‘모의’ 차량이 가상공간에서 도시를 운행하게 해 훈련 데이터로 사용할 수 있다.

또한, 과거에는 분석이나 사용이 어려웠던 유형의 데이터가 AI 시스템의 놀라운 연산 능력으로 인해 접근이 새롭게 가능하게 되고 가치 있게 될 수 있다. 날씨, 양자역학, 바이러스 돌연변이 같은 복잡한 시스템에 대해 우리가 수집해 온 데이터를 생각해 보라. 인간은 인지할 수 없는 전체 범주의 데이터를 로봇이 인식할 수 있게 되면서, 비디오 및 공간 데이터 모음 또한 갑자기 새로운 가치를 가질 수 있다고 FT는 밝혔다.

테슬라는 자율주행 차량에서 수집한 데이터를 사용해, 자율주행 기술의 기반이 되는 AI 모델을 훈련시킨다. 엔비디아는 최근 물리적 세계의 가상 디지털 표현에서 로봇을 훈련시키는 로봇 시뮬레이션 환경의 확장을 발표했다.

가장 가치 있는 데이터 저장소 중 하나는, 기업과 정부의 방화벽 뒤에 잠겨있는 ‘독점 데이터’다. 오늘날, 이 데이터를 보유한 주체들은 그 함의를 알지 못하면서, 접근 허용은 꺼려한다. 하지만 적절한 구조와 인센티브는 더 많은 거래를 이끌어낼 수 있다.

실질적으로, 다양한 기업들은 각기 다른 전략을 고안할 것이다. 일부는 데이터를 부산물이 아니라핵심 사업 자산으로 취급하고, 라이선싱이나 구독을 통해 수익화할 것이다. 다른 기업들은 미래 AI 기능을 가장 잘 활용하기 위해, 데이터 인프라를 업그레이드해야 할 것이다.

각국 사법권이 AI를 어떻게 규제하고 데이터 사용을 추가로 어떻게 규제하기로 결정하는지는 이러한 시장이 어떻게 진화하고 어디에서 진화할지에 지대한 영향을 미칠 것이다. 데이터 프라이버시 및 보안, 데이터 출처, 소유권, 인증에 대한 질문들은 모두 잠재적인 새로운 입법 영역이다. 이러한 놀라운 혁신과 격변의 시기는 데이터 전략을 올바르게 세우는 기업들에게 기회를 제공한다고 FT는 밝혔다.

권세인 기자
인공지능(AI) 혁명이 △자연발생 데이터, △기업·정부의 독점 데이터 △AI·로봇의 합성데이터 등 3대 데이터 시장을 새롭게 재편하고 있다고 영국 경제지 파이낸셜타임스(FT)가 최근 보도했다. FT에 따르면, 인터넷에 공개된 텍스트·이미지 등 자연발생 데이터는 현재 고갈 위기에 놓여있다. 반면, 기업·정부의 방화벽 안에 있는 연구·제조·고객의 독점 데이터는 ‘새로운 석유’로 부상하고 있다. 이와함께, AI·로봇이 생성한 합성상 데이터는. 미래 성장 동력으로 예상된다.

데이터는 AI 혁명의 근간이지만, AI 또한 데이터 시장 자체를 혁신하고 있다고 FT는 지적했다. 개발자들은 방대한 AI 시스템을 구동하기 위한 인프라 구축을 위해 수십억 달러를 투자하고 있다. 이러한 급격한 확장은 데이터 수요의 급증을 가져왔고, 기업들이 상당한 경제적 가치를 창출할 잠재력을 만들어냈다는 것.

FT에 따르면, AI 시스템은 일반적으로 세 가지 주요 구성 요소, 즉 전력(power), 연산(compute), 그리고 데이터로 설명된다. 이는 데이터센터에 전력을 공급하는 전기, 놀라운 속도로 연산을 수행하는 데 필요한 반도체 칩, 그리고 AI 모델을 훈련시키는 데 필수적인 데이터를 의미한다. 

이 중요한 구성 요소들 중에서 데이터는 가장 적게 논의돼 왔다. 데이터센터와 반도체는 만지고 볼 수 있는 물리적인 것이기 때문일 것이라고 FT는 설명했다. 데이터를 확보하는 것은 빠르게 확장하는 AI 생태계의 필수적인 측면. 일부 추정치에 따르면, 모델 개발자들이 이미 전체 인터넷의 복사본과 같은 공개된 ‘유기적’ 데이터의 한계에 도달하면서, 세계는 유기적 데이터가 고갈되고 있다.

AI 모델이 거대한 데이터 세트로 구축되고 사전 훈련된 후에도, 추가적인 데이터는 필요하다고 FT는 밝혔다. 해당 모델이 특정 질문에 답하거나 문제를 해결하도록 요청받는 ‘테스트 시간 연산(test time compute)’은 올바른 종류의 데이터를 필요로 한다. 하지만, 때로는 부족한 경우가 많다는 것.

특히, 인간이 복잡한 문제를 해결하기 위해 “과정을 보여주는” 훈련 데이터가 부족하다. 이 부분은 기업들이 새롭게 주목받을 수 있는 지점이다. 집중적이고, 잘 정리되어 있으며, 고도로 논리적인 데이터 세트를 보유하고 있기 때문이다. 예를 들어, 교과서 출판사가 기술 매뉴얼과 교과 과정 아카이브를 사용해 복잡한 과학 과정을 수행하는 AI 시스템을 훈련시키는 것을 상상해 보라고 FT는 지적했다.

최근의 데이터 라이선싱 계약은 다양한 기업들이 AI 기업에 자사 데이터 접근권을 어떻게 판매하고 있는지 보여준다. 기업들이 점점 더 창의적으로 이러한 일을 함에 따라 이러한 추세는 가속화될 것으로 예상된다. 

지금까지는 이러한 거래들이 특별한 조건으로 개별적으로 협상됐다. 하지만, 조만간 훈련 데이터를 위한 데이터 장터(marketplace)나 여러 시장이 출현할 것을 상상할 수 있다고 FT는 강조했다.

합성 데이터(Synthetic data), 즉 적어도 부분적으로 AI 시스템에 의해 생성된 데이터는 대규모 언어모델 개발의 핵심적인 부분. 새로운 데이터 세트를 찾는 개발자들을 위한 옵션을 확장하는 하나의 경로로 부상했다.

예를 들어, 로봇 기술의 정교화에 따라 AI 시스템은 물리적 환경의 지도를 생성하는 능력이 커지고 있다. 자율주행을 위한 합성 데이터로 로스앤젤레스의 ‘디지털 쌍둥이(digital twin)’ 구축이 가능하다. 수백만 개의 ‘모의’ 차량이 가상공간에서 도시를 운행하게 해 훈련 데이터로 사용할 수 있다.

또한, 과거에는 분석이나 사용이 어려웠던 유형의 데이터가 AI 시스템의 놀라운 연산 능력으로 인해 접근이 새롭게 가능하게 되고 가치 있게 될 수 있다. 날씨, 양자역학, 바이러스 돌연변이 같은 복잡한 시스템에 대해 우리가 수집해 온 데이터를 생각해 보라. 인간은 인지할 수 없는 전체 범주의 데이터를 로봇이 인식할 수 있게 되면서, 비디오 및 공간 데이터 모음 또한 갑자기 새로운 가치를 가질 수 있다.

테슬라는 자율주행 차량에서 수집한 데이터를 사용해, 자율주행 기술의 기반이 되는 AI 모델을 훈련시킨다. 엔비디아는 최근 물리적 세계의 가상 디지털 표현에서 로봇을 훈련시키는 로봇 시뮬레이션 환경의 확장을 발표했다.

가장 가치 있는 데이터 저장소 중 하나는, 기업과 정부의 방화벽 뒤에 잠겨있는 ‘독점 데이터(proprietary data)’다. 오늘날, 이 데이터를 보유한 주체들은 그 함의를 알지 못하면서, 접근 허용은 꺼려한다. 하지만 적절한 구조와 인센티브는 더 많은 거래를 이끌어낼 수 있다.

실질적으로, 다양한 기업들은 각기 다른 전략을 고안할 것이다. 일부는 데이터를 부산물이 아닌 핵심 사업 자산으로 취급하고, 라이선싱이나 구독을 통해 수익화할 것이다. 다른 기업들은 미래 AI 기능을 가장 잘 활용하기 위해 데이터 인프라를 업그레이드해야 할 것이다.

각국 사법권이 AI를 어떻게 규제하고 데이터 사용을 추가로 어떻게 규제하기로 결정하는지는 이러한 시장이 어떻게 진화하고 어디에서 진화할지에 지대한 영향을 미칠 것이다. 데이터 프라이버시 및 보안, 데이터 출처, 소유권, 인증에 대한 질문들은 모두 잠재적인 새로운 입법 영역이다. 이러한 놀라운 혁신과 격변의 시기는 데이터 전략을 올바르게 세우는 기업들에게 기회를 제공한다고 FT는 밝혔다.

권세인 기자