Организация Wikimedia Deutschland (немецкое отделение Wikimedia) 1 октября 2025 года анонсировала запуск проекта "Wiki-LLM", нацеленного на систематизацию и упрощение доступа к данным Википедии для разработчиков ИИ. Хотя Википедия является одним из основных источников для обучения больших языковых моделей, ее стандартные "дампы" данных сложны в обработке из-за специфической разметки и отсутствия единой структуры. Новый проект, как сообщает TechCrunch, будет предоставлять регулярно обновляемые, очищенные и структурированные наборы данных в машиночитаемых форматах (например, JSON). Это не только упростит техническую работу для AI-команд, но и решит две ключевые проблемы: улучшит качество обучающих наборов и обеспечит прозрачность происхождения данных, что критически важно для соблюдения лицензий и борьбы с "галлюцинациями" моделей. Инициатива призвана повысить общую надежность и ответственность в экосистеме разработки ИИ.
Wikimedia запускает проект, чтобы сделать данные Википедии более доступными для ИИ
