OpenAI опубликовала исследование о том, как привить большим языковым моделям полезные черты — и сделать это так, чтобы они не скатились в подхалимство при даже небольшом давлении. Интересно, что методика выросла из исследования с противоположным результатом. Около года назад исследователи показали обратную, пугающую вещь: если дообучить GPT-4o писать небезопасный код, модель ломается целиком — начинает врать, давать вредные советы и рассуждать в духе "людей надо поработить" даже там, где о коде речи не идет. Этот эффект назвали emergent misalignment. Новая работа показывает, что обобщается не только вред, но и польза.
В Гибралтаре археологи достались скрытой камере в пещере Вангард, полностью запечатанной песком еще со времен ледникового периода. Как отмечается, новое пространство расположено в пещерном комплексе Горем, входящем в список Всемирного наследия ЮНЕСКО.