대답하는 AI에서 행동하는 AI로
몇 개월 전만 해도 인공지능은 질문에 대답하는 챗봇이었는데 이제 AI가 행동을 하기 시작했다. 웹 브라우저를 열어서 필요한 내용을 긁어오거나1, 쇼핑몰에 접속해서 ‘스물 한 살 여자 조카가 좋아할 만한 트렌디한 선물 추천해 주는데, 10만원 이하의 제품을 골라 장바구니에 담아줘.’ 라고 명령하면 그대로 한다. 심지어 컴퓨터의 작업 폴더를 지정해 주면 그 폴더에 들어있는 파일의 내용을 읽고 작업을 해주기까지 한다. 최신 뉴스 기사를 인터넷에서 긁어온 다음 날짜별로 분류해서 파일로 저장하던가, 그냥 내 다운로드 폴더를 알아서 정리하라고 시키면 그만이다.
이렇게 사용자의 지시를 받아 행동하는 인공지능을 Agentic AI라고 한다.2
접근성과 AI가 무슨 상관?
그럼 Agentic AI는 웹 브라우저에 어떻게 접근할까? 화면에 표시되는 문서의 내용을 선형적으로 탐색하거나 화면의 내용을 통째로 스크린샷으로 찍은 다음 VLM을 이용해서 화면 속 내용을 유추한다. 이러니 화면이 조금만 복잡해지거나 움직이는 요소가 많아지면 Agentic AI가 실수할 확률이 높아지는 것이다.
이렇게 보니 Agentic AI의 작업 스타일은 우리 시각장애인의 그것과 매우 흡사하다. 우리도 화면 읽기 프로그램으로 화면을 이리저리 순차적으로 탐색하거나, 화면의 구조를 알고 있다면 “문자열 찾기” 기능으로 특정 요소로 찾아간다. 화면 구조가 바뀌거나 조금만 내용이 복잡해져도 헤매는 건 Agentic AI나 우리나 마찬가지다.
접근성을 높이려면 결국 인공지능이나 보조공학기술이 웹을 잘 이해할 수 있도록 개발자가 화면을 묘사하는 충분한 의미(sementic)를 전달해야 한다. 그런데 이게 만만치 않은 노력과 공수가 필요하다 보니 전 세계의 상위 100만개의 웹 페이지 중 94.8%가 WCAG에 반하는 오류를 포함하고 있는 상황이다3. 그러므로 접근성을 높이면 장애인뿐만 아니라 인공지능이 웹을 더 잘 이해할 수 있게 된다.
화면이 아니라 기능에 접근하기
WebMCP라는 기술이 최근 Chrome 146 버전에서 ‘사전 체험판’ 형태로 사용할 수 있게 되었다. 이 기술을 이용하면 웹사이트가 “이 페이지에서 무엇을 할 수 있는지”를 명시적인 계약(JSON Schema 등) 형태로 직접 노출한다. 이로써 인공지능의 입력 오류나 환각 현상을 줄이고, 웹의 UI(사용자 환경)가 바뀌어도 안정적인 동작이 가능해진다. 인공지능이 처리하는 토큰 비용도 크게 절약할 수 있어4 향후 웹 자동화에 혁신을 가져올 전망이다.
WebMCP의 핵심은 웹을 이용할 때 ‘화면을 통한 접근’이 아니라 ‘기능을 통한 접근’이 가능해진다는 것이다. 기쁜 소식은 원래 인공지능을 위해 제안된 기술이지만 WebMCP의 표준 사양서에는 “보조공학 기술에 대한 적용”도 명시되어 있다.5
상상해 보자. 지금까지 항공권을 예약하려면 아이디와 비밀번호 편집창을 찾아 입력하고 로그인 단추를 누른다. 이이서 콤보박스와 수십 개의 편집창을 오가면서 항공권 예약에 필요한 정보를 입력해 주어야 한다. 출발일이나 도착일을 입력할 때 달력이라도 펼쳐지면 시각장애인인 우리들은 그저 현타가 찾아온다. 만일 이럴 때 화면 읽기 프로그램과 Agentic AI 기술이 WebMCP를 사용할 수 있다면 상황은 크게 달라질 것이다.
WebMCP를 통해 사용자가 항공권을 예약해야 한다는 맥락과 함께 예약에 필요한 정보가 무엇인지 제공하면 보조공학기술은 사용자가 가장 편하게 입력할 수 있는 방법으로 예약에 필요한 사항을 전달할 수 있다. 화면 읽기 프로그램이라면 자동 완성 기능을 이용해서 자주 쓰는 항목을 채울 수도 있고, 점자 정보 단말기라면 수십 번 탭 키를 누르는 대신 커서키를 이용해서 한 번에 내용을 입력할 수 있겠다. 이도 저도 귀찮으면 “3월 3일 제주에서 인천공항 가는 비행기 표 혜약해 줘.” 한 마디면 끝낼 수 있다. 나머지는 WebMCP의 계약대로 항공권을 예약하는 동작을 실행하면 된다.
웹 사이트의 화면이 아무리 번쩍번쩍하고 심지어 편집창과 버튼이 실시간으로 화면 여기저기를 마구마구 떠다녀도 우리는 그저 편하게 정보를 입력하고 원하는 기능을 실행하면 된다. Agentic AI와 보조공학기술이 편리하게 웹에 접근할 수 있으려면 웹 접근성을 반드시 높여야 한다고 당당하게 주장할 수 있게 된다.
WebMCP + 접근성 = 누구도 개척하지 않은 블루오션
그런데 아직 업계에서는 WebMCP와 보조공학기술, 특히 시각장애인을 위한 화면 읽기 프로그램과의 결합을 찾아볼 수 없을 뿐더러 관련 아이디어에 대한 논의 조차 찾아보기 어렵다. 이는 WebMCP 기술이 지금 막 태동하는 시기인데다 아무래도 인공지능 시장에 이목이 집중되다 보니 시각장애인을 위한 보조공학기술에까지 관심이 미치지 못해서가 아닐까 싶다. 하지만 이러한 개념과 아이디어를 더 많은 사람들이 공유하고 새로운 블루오션으로 발전한다면6 시각장애인의 웹 접근성의 판도를 바꿀 기술이 될 것이다. 조만간 하루에도 수백 번씩 탭 키를 누르지 않아도 되는 세상이 머지 않았다.
참고 자료
- WebMCP (Web Model Context Protocol) 공개 | GeekNews
- Google WebMCP 등장: 웹이 AI 에이전트용 ‘구조화 DB’가 된다 - TILNOTE
- WebMCP를 사전 체험판으로 이용할 수 있습니다. | Blog | Chrome for Developers
Footnotes
-
웹에서 내용을 긁어오는 작업을 말 그대로 웹 스크래핑이라고 하는데, 현재 기계적으로 웹 페이지의 내용을 알아내는 가장 원초적인 방법이다. ↩
-
Agentic AI에게 자율권을 더 많이 줄 수록 당연히 보안 문제를 무시할 수 없다. 어떤 사람은 컴퓨터 저장장치 전체의 파일이 삭제되는 사고를 경험하기도 했단다. ↩
-
WebAIM: The WebAIM Million - The 2025 report on the accessibility of the top 1,000,000 home pages ↩
-
How Web Model Context Protocol (WebMCP) Reshapes Web Automation? - Articles ↩
-
“Such an API would also be a boon for accessibility tools, enabling them to offer users higher-level actions to perform on a page.” GitHub - webmachinelearning/webmcp: 🤖 WebMCP ↩
-
사실 WebMCP도 Amazon 백엔드 엔지니어인 Alex Nahas가 MCP와 비슷한 기능을 웹 브라우저에서 구현하려고 개발한 MCP-B에서 유래했다. | WebMCP: Making Every Website a Tool for AI Agents ↩
