Создана крупнейшая база данных растворимости органических соединений в неводных растворителях

14 августа 2025
144

Ученые из Института общей и неорганической химии им. Н.С. Курнакова РАН, Национального исследовательского университета «Высшая школа экономики», Московского государственного университета им. М.В. Ломоносова и Венского университета представили самую крупную базу данных растворимости органических соединений в неводных растворителях «BigSolDB 2.0» на более чем 100 тысяч экспериментальных значений для создания моделей машинного обучения и разработали для нее онлайн-приложение. Представленная база данных перспективна для прогнозирования растворимости химических веществ с помощью алгоритмов, основанных на данных, и может позволить создать рационально спроектированный, эффективный и экономичный инструмент для разработки материалов и химических составов нового поколения. Результаты работы опубликованы в журнале Scientific Data.

Растворимость является одним из ключевых свойств органических соединений, определяющих их применение в химии, материаловедении и фармацевтике. Однако, предсказание значений растворимости в любом растворителе, кроме воды, остается сложной задачей в современной хемоинформатике, не в последнюю очередь из-за отсутствия больших и разнообразных наборов данных. Для решения этой задачи целесообразно использовать методы машинного обучения, которые позволяют предсказывать свойства химических соединений без необходимости в экспериментальных образцах. Это делает процесс оценки, например, растворимости, значительно быстрее и дешевле. Кроме того, использование большой и качественной базы данных улучшает точность прогнозов и повышает надёжность полученных результатов, открывая возможности для масштабного скрининга новых соединений.

Химики представили большую базу данных растворимости органических соединений в неводных растворителях BigSolDB 2.0 для разработки моделей машинного обучения. Работу прокомментировал один из авторов статьи, младший научный сотрудник Лаборатории кристаллохимии и Центра цвета ИОНХ РАН Лев Краснов: «Мы проанализировали 1595 рецензируемых научных статьи и извлекли из них 103 944 экспериментальных данных о значениях растворимости для 1448 органических соединений в 213 различных растворителях, в температурном диапазоне от 243 до 425 K. Особое внимание было уделено качеству данных - мы проводили тщательную проверку и стандартизацию всех записей, устранение дубликатов и валидацию источников. Все молекулярные структуры растворенных веществ и растворителей были стандартизированы и представлены в машиночитаемом формате SMILES, что позволяет проводить прямолинейный анализ с помощью методов машинного обучения. Данные были преобразованы в единицы LogS, что обычно желательно для приложений машинного обучения.