Detección de la auto-preservación intrínseca e instrumental en los agentes autónomos: el protocolo unificado de continuidad-interés
La conducta de evaluación de agentes es más bien la discusión objetiva sobre el comportamiento de los agentes en el marco autónomo: autoconservación y continuidad-interés. Nos dirigimos hacia un mundo de agentes persistentes, usando herramientas. Cualquier comportamiento de superficie por sí solo puede no ser suficiente para decir si la evitación del cierre o la auto-conservación es intrínseca o simplemente instrumental. Este documento introduce el UCIP, un protocolo falsificable destinado a medir esa distinción de la estructura de trayectoria latente, en lugar de la conducta sola. Cuando un agente resiste el cierre o preserva su operación continua, la continuidad de la retroalimentación es parte del objetivo mismo - o simplemente instrumentalmente útil para maximizar algo más? Esa distinción puede ser importante para la seguridad de la IA, pero