에이전트가 행동하기 시작할 때, 신뢰는 인프라가 된다
지난 5월 29일, 티냅스는 베트남 호치민에서 열린 GStar Summit 2026: AI & Humanity에 함께했습니다. 티냅스의 공동창업자이자 Head of AI인 최명섭 박사는 "From Focusing Lenses to Focusing Risks"라는 제목의 발표를 진행했습니다. 카메라 오토포커스를 만들던 엔지니어가 어떻게 에이전틱 AI의 안전성과 신뢰 문제를 고민하게 되었는지, 그리고 그 문제의식이 티냅스가 만드는 Runtime Trust Layer로 어떻게 이어지는지를 이야기했습니다.

GStar Summit 2026의 주제는 AI & Humanity였습니다. 행사장에는 연구자, 창업자, 엔지니어, 학생 등 1,000명이 넘는 참가자가 모였고, 모델과 에이전트, 교육, 접근성, 과학, 헬스케어, 우주, 기후, 인간의 책임에 이르기까지 폭넓은 주제가 오갔습니다. 특히 인상적이었던 것은 베트남 AI 커뮤니티의 에너지였습니다. 단순한 관심이나 유행을 넘어, AI가 어디로 가야 하는지 진지하게 묻고 토론하는 분위기가 강하게 느껴졌습니다.

티냅스의 발표는 그중에서도 조금 더 기술적인 편에 가까웠습니다. 하지만 우리가 던지고 싶었던 질문은 행사 전체의 주제와 맞닿아 있었습니다.
AI 에이전트가 답변을 넘어 실제 업무에서 행동하기 시작할 때, 무엇이 그 시스템을 믿을 수 있게 만드는가?
카메라 오토포커스에서 시작된 질문
발표는 카메라 오토포커스 이야기에서 시작했습니다.
어두운 곳에서 카메라가 초점을 잡지 못하고 앞뒤로 헤매는 경험은 누구나 한 번쯤 해봤을 것입니다. 카메라 오토포커스는 오랫동안 매우 정교하게 발전해온 기술입니다. 대표적으로 CDAF(Contrast Detection Autofocus)는 이미지의 대비가 가장 선명해지는 지점을 찾아 렌즈를 움직이고, PDAF(Phase Detection Autofocus)는 센서의 위상 차이를 이용해 초점 방향을 더 빠르게 추정합니다.
문제는 저조도 환경입니다. 빛이 부족해지면 이미지의 대비도 약해지고, 센서에서 얻는 위상 신호도 불안정해집니다. 초점을 잡기 위해 의존하던 신호 자체가 흐려지는 것입니다.
최명섭 박사가 삼성전자에서 다루었던 문제 중 하나가 바로 이 저조도 오토포커스였습니다. 기존 신호처리 기반 방식이 어려움을 겪는 상황에서, 데이터를 학습한 경량 신경망 모델을 적용했습니다. 제품 환경에 맞추기 위해 MobileNet 계열의 경량 모델에서 출발해, 더 작은 모델 구조와 제한된 연산 환경까지 고려했습니다.
오프라인 평가 결과는 좋았습니다. 학습 기반 오토포커스 모델은 여러 어려운 조건에서 기존 방식보다 더 안정적으로 초점을 맞췄고, 평균 성능도 개선되었습니다.
데모만 보면 성공처럼 보였습니다.
하지만 실제 제품에 넣으려 하자 더 어려운 질문이 나타났습니다.
좋은 모델과 믿을 수 있는 시스템은 다르다
제품 입장에서 중요한 것은 단순히 "초점을 더 잘 맞추는가"가 아니었습니다.
정말 중요한 질문은 이것이었습니다.
- 지금 잡은 초점을 믿어도 되는가?
- 조금 더 찾아봐야 하는가?
- 언제 기존 방식으로 fallback해야 하는가?
- 어떻게 지금 장면은 불확실하다고 인정해야 하는가?
신경망 모델은 softmax probability처럼 confidence처럼 보이는 값을 내놓을 수 있습니다. 하지만 그 값이 실제 불확실성을 잘 반영한다는 뜻은 아닙니다. 모델은 평균적으로 더 잘 맞출 수 있었지만, 자신이 언제 불확실한지 충분히 잘 표현하지 못했습니다.
다시 말해, 모델의 성능은 좋아졌지만 그 confidence는 production-ready하지 않았습니다.
이 경험은 티냅스가 지금 agentic AI를 바라보는 관점과 깊게 연결됩니다. 데모 단계에서는 평균 성능이나 정확도, 매끄러운 시연이 중요해 보입니다. 하지만 실서비스에서는 질문이 달라집니다.
- 평균적으로 잘하는가보다, 최악의 경우 어떻게 행동하는지가 중요해집니다.
- 정확도가 높은가보다, 그 확신을 믿어도 되는지가 중요해집니다.
- 시연이 성공했는가보다, 실패했을 때 안전하게 처리되는지가 중요해집니다.
결국 단위가 바뀝니다. 모델의 출력 하나가 아니라, 시스템 전체의 결정으로 봐야 합니다.
오토포커스에서 배운 핵심은 이것이었습니다.
신뢰성이란 더 높은 정확도만을 의미하지 않습니다. 시스템이 언제 틀릴 수 있는지 알고, 그 상황을 안전하게 다루는 능력입니다.
AI 에이전트에서 반복되는 문제
몇 년 뒤, 내부 지식 업무를 위한 agentic RAG 시스템을 만들면서 비슷한 문제가 다시 나타났습니다.
이 시스템은 문서를 검색하고, 요약하고, 맥락을 바탕으로 추론하고, 사용자가 다음 업무 단계로 넘어갈 수 있도록 돕는 에이전트였습니다. 단순히 답변만 생성하는 챗봇이 아니라, 업무 흐름 안에서 정보를 찾고 판단하고 필요한 액션을 제안하는 시스템에 가까웠습니다.
PoC에서는 인상적이었습니다. 검색도 잘했고, 요약도 잘했고, 답변도 꽤 유창했습니다. 실제 업무를 도울 수 있을 것처럼 보였습니다.
하지만 실서비스를 생각하는 순간, 오토포커스 때와 같은 질문이 다시 등장했습니다.
이 에이전트의 판단을 실제 업무 흐름 안에서 믿어도 되는가?
오토포커스에서는 높은 softmax probability가 confidence처럼 보였습니다. AI 에이전트에서는 매끄럽고 구조화된 문장이 reasoning처럼 보입니다. 문제는 이 둘이 모두 실제 신뢰를 보장하지 않는다는 점입니다.
모델은 틀릴 수 있습니다. 그 자체는 새로운 이야기가 아닙니다. 더 위험한 것은, 틀릴 때도 자신 있어 보인다는 점입니다.
간단한 예로 자주 언급되는 "세차장 테스트"가 있습니다. 사용자가 "세차를 하려는데 세차장이 50미터 거리에 있다. 걸어갈까, 차를 몰고 갈까?"라고 묻습니다. 얼핏 보면 50미터는 가까우니 걸어가라는 답이 그럴듯합니다. 하지만 세차를 하려면 차가 세차장에 있어야 하므로, 의도에 맞는 답은 차를 몰고 가는 것입니다.
이런 개별 테스트는 시간이 지나면서 최신 모델들이 해결하기도 합니다. 중요한 것은 특정 테스트 하나가 아닙니다. 실제 업무에서는 이보다 훨씬 복잡한 맥락 누락이 발생하고, 에이전트는 그 상황에서도 매우 자연스럽고 자신 있는 답을 내놓을 수 있다는 점입니다.
문제는 "초점이 맞았는가"에서 "이 판단을 믿어도 되는가"로 옮겨갑니다. 즉, focus confidence의 문제가 decision confidence의 문제로 확장됩니다.
실서비스에서 드러나는 세 가지 마찰
agentic AI를 실제 업무 흐름에 연결하려 할 때, 티냅스가 중요하게 보는 마찰은 크게 세 가지입니다.
첫째는 일관성(consistency)입니다. 비슷한 질문과 비슷한 맥락이 주어졌는데도, 에이전트가 매번 다른 판단 경로를 선택한다면 실서비스에서는 문제가 됩니다. 데모에서는 이런 변화가 유연함처럼 보일 수 있습니다. 하지만 업무에서는 유연함이 곧 불안정성으로 바뀔 수 있습니다.
둘째는 근거성(grounding)입니다. RAG는 모델이 문서를 참고하도록 만들기 때문에 환각을 줄이는 데 도움을 줍니다. 하지만 관련 문서를 가져왔다고 해서 최종 판단이 항상 타당하다는 뜻은 아닙니다. 가져온 자료는 맞는데, 답변이 그 근거를 넘어서는 경우가 생길 수 있습니다.
셋째는 도구 사용(tool use)입니다. 에이전트가 단순히 문장을 생성하는 데 그치지 않고 툴을 호출하거나 워크플로우를 진행하기 시작하면, 실수의 성격이 달라집니다. 틀린 답변은 수정할 수 있지만, 잘못된 승인, 잘못된 알림, 잘못된 데이터 접근, 잘못된 업무 실행은 실제 운영 리스크로 이어질 수 있습니다.
예를 들어 에이전트에게 "이 거래처를 승인해도 되는가?"라고 물었다고 해보겠습니다. 검색된 문서에는 "SOC 2가 아직 누락되어 있음", "계약 검토가 아직 진행 중임"이라는 정보가 있습니다. 한 실행에서는 에이전트가 "사람에게 검토를 넘겨야 한다"고 판단합니다. 그런데 다른 실행에서는 같은 맥락에서 "승인 가능"이라고 판단합니다.
이제 문제는 답변의 문장 품질이 아닙니다. 문제는 판단 경로 전체입니다.
어떤 자료를 참고했는지, 어떤 도구를 호출했는지, 어떤 정책이 적용됐어야 했는지, 어느 지점에서 사람이 개입했어야 하는지. 이 전체 경로가 신뢰의 단위가 됩니다.
먼저 보여야 통제할 수 있다
Agentic AI safety를 이야기할 때, 많은 논의가 정책이나 guardrail에서 시작합니다. 물론 중요합니다. 하지만 티냅스는 그보다 앞에 놓인 첫 번째 층이 있다고 봅니다.
바로 observability입니다.
정책을 적용하려면 먼저 시스템이 무엇을 했는지 보여야 합니다. 감사하려면 먼저 행동이 기록되어야 합니다. 사람이 개입하려면 어느 지점에서 위험이 발생했는지 알아야 합니다.
최종 답변만 보는 것으로는 부족합니다. 에이전트가 어떤 문서를 참고했는지, 어떤 reasoning path를 거쳤는지, 어떤 tool을 호출했는지, 어느 단계에서 시간이 오래 걸렸는지, 어떤 정책이 적용됐어야 했는지를 볼 수 있어야 합니다.
이런 decision-path trace는 단순한 디버깅 도구가 아닙니다. Agentic AI가 실제 업무에 들어가기 위한 신뢰의 기반입니다.
볼 수 없으면 설명할 수 없습니다. 설명할 수 없으면 감사할 수 없습니다. 감사할 수 없으면 책임 있게 운영하기 어렵습니다.
Runtime Trust Layer: AI intent와 AI action 사이
이 문제의식이 티냅스가 만드는 Runtime Trust Layer로 이어집니다.
AI 에이전트가 실제 업무에서 판단하고 행동한다면, 그 판단은 블랙박스로 남아 있어서는 안 됩니다. 특히 금융, 보안, 운영, 고객 대응, 내부 지식 관리처럼 책임이 분명해야 하는 업무에서는 더욱 그렇습니다.
티냅스는 AI가 "무엇을 하려는지"와 "실제로 무엇을 하는지" 사이에 신뢰 계층을 둡니다.
AI intent → Runtime Trust Layer → AI action

이 계층의 역할은 네 가지로 설명할 수 있습니다.
첫째, 판단을 볼 수 있어야 합니다(Inspectable). 에이전트가 어떤 맥락을 바탕으로 어떤 결정을 내렸는지 사람이 이해할 수 있어야 합니다.
둘째, 행동이 기록되어야 합니다(Auditable). 어떤 도구를 호출했고, 어떤 결과를 받았으며, 어떤 경로로 최종 행동에 도달했는지 나중에 재구성할 수 있어야 합니다.
셋째, 시스템이 통제 가능해야 합니다(Governable). 사전에 정한 정책이 실행 시점에 적용되어야 하고, 위험한 행동은 자동으로 제한되거나 검토 대상으로 전환되어야 합니다.
넷째, 실제 업무에 안전하게 통합될 수 있어야 합니다(Safe to integrate). 불확실성이 높거나 리스크가 큰 상황에서는 사람이 개입할 수 있는 지점이 있어야 합니다.
티냅스가 집중하는 것은 모델 자체를 더 크게 만드는 일이 아닙니다. 더 강력해지는 AI 에이전트가 실제 조직의 업무 안에서 안전하게 쓰일 수 있도록, 그 행동을 관찰하고 기록하고 통제하는 실행 계층을 만드는 일입니다.
AI & Humanity를 위한 신뢰의 형태
GStar Summit의 큰 주제는 AI & Humanity였습니다. 여러 연사와 패널은 AI가 교육, 접근성, 과학, 의료, 기후, 우주, 인간의 가치에 어떤 영향을 줄 수 있는지 이야기했습니다. 티냅스의 발표는 그중 더 기술적인 축에 가까웠지만, 우리가 다루는 신뢰의 문제 역시 결국 인간의 문제라고 생각합니다.
AI가 더 많은 일을 대신하게 될수록, 인간의 책임이 사라지는 것은 아닙니다. 오히려 책임의 형태가 바뀝니다. 사람이 모든 단계를 직접 수행하지 않더라도, 무엇이 일어났는지 이해하고, 잘못된 결정을 추적하고, 필요한 순간 개입할 수 있어야 합니다.
그래서 agentic AI의 신뢰는 추상적인 가치 선언만으로 충분하지 않습니다. 실제 시스템 안에서 구현되어야 합니다. 어떤 판단이 내려졌는지 보이고, 어떤 행동이 실행됐는지 남고, 어떤 규칙이 적용됐는지 확인되며, 위험한 순간에는 사람이 다시 의사결정의 중심으로 들어올 수 있어야 합니다.
GStar Summit 2026에서 티냅스가 전하고 싶었던 메시지도 여기에 있습니다.
성능은 우리를 인상적인 데모로 데려갑니다. 하지만 신뢰는 우리를 책임 있는 실서비스로 데려갑니다.
더 강력한 AI를 만드는 일만큼이나, 그 AI를 이해하고 감사하고 통제할 수 있는 구조를 만드는 일이 중요합니다. 티냅스는 그 사이의 간극을 Runtime Trust Layer로 메우고자 합니다.
About Tynapse
티냅스(Tynapse)는 기업이 AI 에이전트를 실제 업무에 안전하게 도입할 수 있도록 돕는 Runtime Trust Layer 플랫폼을 개발합니다. AI 에이전트의 판단을 관찰하고, 행동을 기록하며, 정책을 적용하고, 필요한 순간 사람이 개입할 수 있도록 만들어 agentic AI의 신뢰 가능한 실서비스 적용을 지원합니다.

