2025.09.25 (목)

  • 맑음동두천 25.8℃
  • 구름조금강릉 27.3℃
  • 맑음서울 26.6℃
  • 구름많음대전 25.0℃
  • 흐림대구 22.6℃
  • 흐림울산 23.8℃
  • 구름많음광주 24.8℃
  • 흐림부산 27.2℃
  • 구름조금고창 25.2℃
  • 제주 24.5℃
  • 맑음강화 25.7℃
  • 구름많음보은 24.4℃
  • 구름많음금산 25.9℃
  • 구름많음강진군 26.3℃
  • 흐림경주시 22.1℃
  • 구름많음거제 25.3℃
기상청 제공

삼성전자, AI 업무 생산성 측정 지표 벤치마크 '트루벤치' 공개

실제 업무 환경 반영·다국어 지원으로 차별화…기술 리더십 강화

 

삼성전자가 자체 개발한 AI 업무 생산성 벤치마크 '트루벤치(TRUEBench)'를 공개했다고 밝혔다.

 

트루벤치는 삼성전자 DX 부문의 선행 연구개발조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 바탕으로 개발했으며, AI 모델의 업무 생산성 성능을 평가하는 데 특화됐다.

 

삼성전자는 기존 AI 벤치마크가 대부분 영어를 중심으로 하거나 단발성 대화를 평가하는 한계에 주목했다. 이에 트루벤치는 실제 오피스 업무에서 자주 활용되는 콘텐츠 생성, 데이터 분석, 문서 요약 및 번역 등 10개 카테고리, 46개 업무, 2,485개 세분화된 항목으로 구성하여 실제 업무 상황을 폭넓게 평가한다.

 

특히 트루벤치는 총 12개 언어를 지원하며, 영어와 한국어 등 여러 언어가 혼합된 교차 언어 번역 기능까지 평가할 수 있는 점이 특징이다. 또한 한 번에 최대 5개 모델을 비교할 수 있는 리더보드와 상세 항목별 점수를 제공해 사용자가 AI 모델의 성능을 한눈에 파악할 수 있도록 했다. 삼성전자는 트루벤치의 데이터 샘플과 리더보드를 글로벌 오픈소스 플랫폼인 허깅페이스에 공개했다.

 

트루벤치는 답변의 정확성뿐만 아니라 겉으로 드러나지 않는 사용자의 의도와 맥락까지 평가할 수 있도록 설계됐다. AI가 평가 기준을 검토하고 교차 검증하는 방식을 도입해 주관적 편향을 최소화하고 일관성 있는 평가 결과를 제공한다고 전했다.

 

DX부문 최고기술책임자(CTO) 겸 삼성리서치장 전경훈 사장은 "삼성 리서치는 다양한 실제 적용 사례를 바탕으로 차별화된 생산성 AI 기술 경쟁력과 노하우를 보유하고 있다"며, "트루벤치 공개를 통해 생산성 성능 평가 기준을 정립하고 기술 리더십을 더욱 공고히 할 것"이라고 말했다.

배너

포토이슈

더보기


배너
배너
배너