우리가 ‘AGI’를 점수 매기지 않는 이유
범용 지능에 합의된 시험이 없기에 단일 ‘AGI %’는 데이터로 포장한 우리의 의견일 뿐입니다. 대신 객관적·제3자 숫자를 추적합니다: 학습 컴퓨트, 공개 벤치마크 점수, 투자.
AI가 ‘범용 지능’에 얼마나 가까운지를 단일 숫자로 매기고 싶지만, AGI엔 합의된 정의도 인정된 시험도 없습니다. 따라서 어떤 ‘AGI 점수’든 판단이 개입된 것 — 측정으로 포장한 우리의 의견 — 이며, 이는 이 트래커가 거부하는 바로 그것입니다.
그래서 프론티어 AI에서도 늘 하던 대로 합니다: 객관적·외부 출처 숫자를 추적하고 그것이 말하게 둡니다. 학습 컴퓨트(Epoch AI)는 대부분의 역량 향상을 이끈 순수 스케일링을 담고, 검증 가능한 단단한 수치입니다. ARC-AGI 같은 공개 벤치마크는 특정 능력을 인간 기준선과 견주며 독립 제3자가 운영합니다 — 우리는 그 점수를 보고할 뿐 만들어내지 않습니다. 민간 투자(스탠퍼드 AI Index)는 자본이 얼마나 강하게 거는지를 보여줍니다.
이 중 무엇도 ‘지능’ 자체는 아니며, 우리는 그 점을 분명히 합니다. 컴퓨트는 결과가 아니라 입력이고, 벤치마크는 좁은 단면이며, 투자는 역량이 아니라 믿음입니다. 하지만 합쳐 보면, 우리가 저울에 손을 얹지 않고도 분야의 움직임을 볼 수 있습니다. 어떤 숫자가 인간 기준선을 넘을 때 — 2024년 말 ARC-AGI처럼, 그리고 2025년 더 어려운 ARC-AGI-2가 기준을 다시 올린 것처럼 — 그것은 분위기가 아니라 날짜와 출처가 있는 사실입니다. 이것이 트래커 전체에 적용하는 기준이며, 가장 시끄러운 분야인 프론티어 AI에서 가장 중요합니다.