#include <weightmatrix.h>

Public Member Functions
	WeightMatrix ()

int	InitWeightsFloat (int no, int ni, bool use_adam, float weight_range, TRand *randomizer)

int	RemapOutputs (const std::vector< int > &code_map)

void	ConvertToInt ()

int	RoundInputs (int size) const

bool	is_int_mode () const

int	NumOutputs () const

const TFloat *	GetWeights (int index) const

TFloat	GetDW (int i, int j) const

void	InitBackward ()

bool	Serialize (bool training, TFile *fp) const

bool	DeSerialize (bool training, TFile *fp)

bool	DeSerializeOld (bool training, TFile *fp)

void	MatrixDotVector (const TFloat u, TFloat v) const

void	MatrixDotVector (const int8_t u, TFloat v) const

void	MultiplyAccumulate (const TFloat v, TFloat inout)

void	VectorDotMatrix (const TFloat u, TFloat v) const

void	SumOuterTransposed (const TransposedArray &u, const TransposedArray &v, bool parallel)

void	Update (float learning_rate, float momentum, float adam_beta, int num_samples)

void	AddDeltas (const WeightMatrix &other)

void	CountAlternators (const WeightMatrix &other, TFloat same, TFloat changed) const

void	Debug2D (const char *msg)

Detailed Description

Definition at line 70 of file weightmatrix.h.

Constructor & Destructor Documentation

◆ WeightMatrix()

tesseract::WeightMatrix::WeightMatrix ( )

inline

Definition at line 72 of file weightmatrix.h.

72: int_mode_(false), use_adam_(false) {}

Member Function Documentation

◆ AddDeltas()

void tesseract::WeightMatrix::AddDeltas ( const WeightMatrix & other )

Definition at line 486 of file weightmatrix.cpp.

                                                      {
  assert(dw_.dim1() == other.dw_.dim1());
  assert(dw_.dim2() == other.dw_.dim2());
  dw_ += other.dw_;
}

◆ ConvertToInt()

void tesseract::WeightMatrix::ConvertToInt ( )

Definition at line 183 of file weightmatrix.cpp.

                                {
  wi_.ResizeNoInit(wf_.dim1(), wf_.dim2());
  scales_.reserve(wi_.dim1());
  int dim2 = wi_.dim2();
  for (int t = 0; t < wi_.dim1(); ++t) {
    TFloat *f_line = wf_[t];
    int8_t *i_line = wi_[t];
    TFloat max_abs = 0;
    for (int f = 0; f < dim2; ++f) {
      TFloat abs_val = fabs(f_line[f]);
      if (abs_val > max_abs) {
        max_abs = abs_val;
      }
    }
    TFloat scale = max_abs / INT8_MAX;
    scales_.push_back(scale / INT8_MAX);
    if (scale == 0.0) {
      scale = 1.0;
    }
    for (int f = 0; f < dim2; ++f) {
      i_line[f] = IntCastRounded(f_line[f] / scale);
    }
  }
  wf_.Resize(1, 1, 0.0);
  int_mode_ = true;
  if (IntSimdMatrix::intSimdMatrix) {
    int32_t rounded_num_out;
    IntSimdMatrix::intSimdMatrix->Init(wi_, shaped_w_, rounded_num_out);
    scales_.resize(rounded_num_out);
  }
}

◆ CountAlternators()

void tesseract::WeightMatrix::CountAlternators	(	const WeightMatrix &	other,
		TFloat *	same,
		TFloat *	changed
	)		const

Definition at line 495 of file weightmatrix.cpp.

                                                           {
  int num_outputs = updates_.dim1();
  int num_inputs = updates_.dim2();
  assert(num_outputs == other.updates_.dim1());
  assert(num_inputs == other.updates_.dim2());
  for (int i = 0; i < num_outputs; ++i) {
    const TFloat *this_i = updates_[i];
    const TFloat *other_i = other.updates_[i];
    for (int j = 0; j < num_inputs; ++j) {
      TFloat product = this_i[j] * other_i[j];
      if (product < 0.0) {
        *changed -= product;
      } else {
        *same += product;
      }
    }
  }
}

◆ Debug2D()

void tesseract::WeightMatrix::Debug2D ( const char * msg )

Definition at line 527 of file weightmatrix.cpp.

                                          {
  STATS histogram(0, kHistogramBuckets - 1);
  if (int_mode_) {
    for (int i = 0; i < wi_.dim1(); ++i) {
      for (int j = 0; j < wi_.dim2(); ++j) {
        HistogramWeight(wi_[i][j] * scales_[i], &histogram);
      }
    }
  } else {
    for (int i = 0; i < wf_.dim1(); ++i) {
      for (int j = 0; j < wf_.dim2(); ++j) {
        HistogramWeight(wf_[i][j], &histogram);
      }
    }
  }
  tprintf("%s\n", msg);
  histogram.print();
}

◆ DeSerialize()

bool tesseract::WeightMatrix::DeSerialize	(	bool	training,
		TFile *	fp
	)

Definition at line 280 of file weightmatrix.cpp.

                                                       {
  uint8_t mode;
  if (!fp->DeSerialize(&mode)) {
    return false;
  }
  int_mode_ = (mode & kInt8Flag) != 0;
  use_adam_ = (mode & kAdamFlag) != 0;
  if ((mode & kDoubleFlag) == 0) {
    return DeSerializeOld(training, fp);
  }
  if (int_mode_) {
    if (!wi_.DeSerialize(fp)) {
      return false;
    }
    uint32_t size;
    if (!fp->DeSerialize(&size)) {
      return false;
    }
#ifdef FAST_FLOAT
    scales_.reserve(size);
    for (auto n = size; n > 0; n--) {
      double val;
      if (!fp->DeSerialize(&val)) {
        return false;
      }
      scales_.push_back(val / INT8_MAX);
    }
#else
    scales_.resize(size);
    if (!fp->DeSerialize(&scales_[0], size)) {
      return false;
    }
    for (auto &scale : scales_) {
      scale /= INT8_MAX;
    }
#endif
    if (IntSimdMatrix::intSimdMatrix) {
      int32_t rounded_num_out;
      IntSimdMatrix::intSimdMatrix->Init(wi_, shaped_w_, rounded_num_out);
      scales_.resize(rounded_num_out);
    }
  } else {
    if (!tesseract::DeSerialize(fp, wf_)) {
      return false;
    }
    if (training) {
      InitBackward();
      if (!tesseract::DeSerialize(fp, updates_)) {
        return false;
      }
      if (use_adam_) {
        if (!tesseract::DeSerialize(fp, dw_sq_sum_)) {
          return false;
        }
      }
    }
  }
  return true;
}

◆ DeSerializeOld()

bool tesseract::WeightMatrix::DeSerializeOld	(	bool	training,
		TFile *	fp
	)

Definition at line 342 of file weightmatrix.cpp.

                                                          {
#ifdef FAST_FLOAT
  // Not implemented.
  ASSERT_HOST(!"not implemented");
  return false;
#else
  if (int_mode_) {
    if (!wi_.DeSerialize(fp)) {
      return false;
    }
    std::vector<float> old_scales;
    if (!fp->DeSerialize(old_scales)) {
      return false;
    }
    scales_.reserve(old_scales.size());
    for (float old_scale : old_scales) {
      scales_.push_back(old_scale);
    }
  } else {
    GENERIC_2D_ARRAY<float> float_array;
    if (!float_array.DeSerialize(fp)) {
      return false;
    }
    FloatToDouble(float_array, wf_);
  }
  if (training) {
    InitBackward();
    GENERIC_2D_ARRAY<float> float_array;
    if (!float_array.DeSerialize(fp)) {
      return false;
    }
    FloatToDouble(float_array, updates_);
    // Errs was only used in int training, which is now dead.
    if (!float_array.DeSerialize(fp)) {
      return false;
    }
  }
  return true;
#endif
}

◆ GetDW()

TFloat tesseract::WeightMatrix::GetDW	(	int	i,
		int	j
	)		const

inline

Definition at line 115 of file weightmatrix.h.

                                   {
    return dw_(i, j);
  }

◆ GetWeights()

const TFloat * tesseract::WeightMatrix::GetWeights ( int index ) const

inline

Definition at line 111 of file weightmatrix.h.

                                            {
    return wf_[index];
  }

◆ InitBackward()

void tesseract::WeightMatrix::InitBackward ( )

Definition at line 217 of file weightmatrix.cpp.

                                {
  int no = int_mode_ ? wi_.dim1() : wf_.dim1();
  int ni = int_mode_ ? wi_.dim2() : wf_.dim2();
  dw_.Resize(no, ni, 0.0);
  updates_.Resize(no, ni, 0.0);
  wf_t_.Transpose(wf_);
  if (use_adam_) {
    dw_sq_sum_.Resize(no, ni, 0.0);
  }
}

◆ InitWeightsFloat()

int tesseract::WeightMatrix::InitWeightsFloat	(	int	no,
		int	ni,
		bool	use_adam,
		float	weight_range,
		TRand *	randomizer
	)

Definition at line 130 of file weightmatrix.cpp.

                                                      {
  int_mode_ = false;
  wf_.Resize(no, ni, 0.0);
  if (randomizer != nullptr) {
    for (int i = 0; i < no; ++i) {
      for (int j = 0; j < ni; ++j) {
        wf_[i][j] = randomizer->SignedRand(weight_range);
      }
    }
  }
  use_adam_ = use_adam;
  InitBackward();
  return ni * no;
}

◆ is_int_mode()

bool tesseract::WeightMatrix::is_int_mode ( ) const

inline

Definition at line 104 of file weightmatrix.h.

                           {
    return int_mode_;
  }

◆ MatrixDotVector() [1/2]

void tesseract::WeightMatrix::MatrixDotVector	(	const int8_t *	u,
		TFloat *	v
	)		const

Definition at line 393 of file weightmatrix.cpp.

                                                                   {
  assert(int_mode_);
  if (IntSimdMatrix::intSimdMatrix) {
    IntSimdMatrix::intSimdMatrix->matrixDotVectorFunction(wi_.dim1(), wi_.dim2(), &shaped_w_[0],
                                                          &scales_[0], u, v);
  } else {
    IntSimdMatrix::MatrixDotVector(wi_, scales_, u, v);
  }
}

◆ MatrixDotVector() [2/2]

void tesseract::WeightMatrix::MatrixDotVector	(	const TFloat *	u,
		TFloat *	v
	)		const

Definition at line 388 of file weightmatrix.cpp.

                                                                   {
  assert(!int_mode_);
  MatrixDotVectorInternal(wf_, true, false, u, v);
}

◆ MultiplyAccumulate()

void tesseract::WeightMatrix::MultiplyAccumulate	(	const TFloat *	v,
		TFloat *	inout
	)

Definition at line 405 of file weightmatrix.cpp.

                                                                    {
  assert(!int_mode_);
  assert(wf_.dim1() == 1);
  int n = wf_.dim2();
  const TFloat *u = wf_[0];
  for (int i = 0; i < n; ++i) {
    inout[i] += u[i] * v[i];
  }
}

◆ NumOutputs()

int tesseract::WeightMatrix::NumOutputs ( ) const

inline

Definition at line 107 of file weightmatrix.h.

                         {
    return int_mode_ ? wi_.dim1() : wf_.dim1();
  }

◆ RemapOutputs()

int tesseract::WeightMatrix::RemapOutputs ( const std::vector< int > & code_map )

Definition at line 151 of file weightmatrix.cpp.

                                                             {
  GENERIC_2D_ARRAY<TFloat> old_wf(wf_);
  int old_no = wf_.dim1();
  int new_no = code_map.size();
  int ni = wf_.dim2();
  std::vector<TFloat> means(ni, 0.0);
  for (int c = 0; c < old_no; ++c) {
    const TFloat *weights = wf_[c];
    for (int i = 0; i < ni; ++i) {
      means[i] += weights[i];
    }
  }
  for (auto &mean : means) {
    mean /= old_no;
  }
  wf_.Resize(new_no, ni, 0.0);
  InitBackward();
  for (int dest = 0; dest < new_no; ++dest) {
    int src = code_map[dest];
    const TFloat *src_data = src >= 0 ? old_wf[src] : means.data();
    memcpy(wf_[dest], src_data, ni * sizeof(*src_data));
  }
  return ni * new_no;
}

◆ RoundInputs()

int tesseract::WeightMatrix::RoundInputs ( int size ) const

inline

Definition at line 96 of file weightmatrix.h.

                                  {
    if (!int_mode_ || !IntSimdMatrix::intSimdMatrix) {
      return size;
    }
    return IntSimdMatrix::intSimdMatrix->RoundInputs(size);
  }

◆ Serialize()

bool tesseract::WeightMatrix::Serialize	(	bool	training,
		TFile *	fp
	)		const

Definition at line 238 of file weightmatrix.cpp.

                                                           {
  // For backward compatibility, add kDoubleFlag to mode to indicate the doubles
  // format, without errs, so we can detect and read old format weight matrices.
  uint8_t mode = (int_mode_ ? kInt8Flag : 0) | (use_adam_ ? kAdamFlag : 0) | kDoubleFlag;
  if (!fp->Serialize(&mode)) {
    return false;
  }
  if (int_mode_) {
    if (!wi_.Serialize(fp)) {
      return false;
    }
    uint32_t size = scales_.size();
    if (!fp->Serialize(&size)) {
      return false;
    }
    for (auto scale : scales_) {
      // The scales stored in memory have an extra factor applied to them
      // to allow faster operation. We have to remove that factor here
      // before writing to disc.
      double value = scale * INT8_MAX;
      if (!fp->Serialize(&value)) {
        return false;
      }
    }
  } else {
    if (!tesseract::Serialize(fp, wf_)) {
      return false;
    }
    if (training) {
      if (!tesseract::Serialize(fp, updates_)) {
        return false;
      }
      if (use_adam_ && !tesseract::Serialize(fp, dw_sq_sum_)) {
        return false;
      }
    }
  }
  return true;
}

◆ SumOuterTransposed()

void tesseract::WeightMatrix::SumOuterTransposed	(	const TransposedArray &	u,
		const TransposedArray &	v,
		bool	parallel
	)

Definition at line 429 of file weightmatrix.cpp.

                                                        {
  assert(!int_mode_);
  int num_outputs = dw_.dim1();
  assert(u.dim1() == num_outputs);
  assert(u.dim2() == v.dim2());
  int num_inputs = dw_.dim2() - 1;
  int num_samples = u.dim2();
  // v is missing the last element in dim1.
  assert(v.dim1() == num_inputs);
#ifdef _OPENMP
#  pragma omp parallel for num_threads(4) if (in_parallel)
#endif
  for (int i = 0; i < num_outputs; ++i) {
    TFloat *dwi = dw_[i];
    const TFloat *ui = u[i];
    for (int j = 0; j < num_inputs; ++j) {
      dwi[j] = DotProduct(ui, v[j], num_samples);
    }
    // The last element of v is missing, presumed 1.0f.
    TFloat total = 0;
    for (int k = 0; k < num_samples; ++k) {
      total += ui[k];
    }
    dwi[num_inputs] = total;
  }
}

◆ Update()

void tesseract::WeightMatrix::Update	(	float	learning_rate,
		float	momentum,
		float	adam_beta,
		int	num_samples
	)

Definition at line 460 of file weightmatrix.cpp.

                                                                                               {
  assert(!int_mode_);
  if (use_adam_ && momentum > 0.0f && num_samples > 0 && num_samples < kAdamCorrectionIterations) {
    learning_rate *= sqrt(1.0f - pow(adam_beta, num_samples));
    learning_rate /= 1.0f - pow(momentum, num_samples);
  }
  if (use_adam_ && num_samples > 0 && momentum > 0.0f) {
    dw_sq_sum_.SumSquares(dw_, adam_beta);
    dw_ *= learning_rate * (1.0f - momentum);
    updates_ *= momentum;
    updates_ += dw_;
    wf_.AdamUpdate(updates_, dw_sq_sum_, learning_rate * kAdamEpsilon);
  } else {
    dw_ *= learning_rate;
    updates_ += dw_;
    if (momentum > 0.0f) {
      wf_ += updates_;
    }
    if (momentum >= 0.0f) {
      updates_ *= momentum;
    }
  }
  wf_t_.Transpose(wf_);
}

◆ VectorDotMatrix()

void tesseract::WeightMatrix::VectorDotMatrix	(	const TFloat *	u,
		TFloat *	v
	)		const

Definition at line 419 of file weightmatrix.cpp.

                                                                   {
  assert(!int_mode_);
  MatrixDotVectorInternal(wf_t_, false, true, u, v);
}

The documentation for this class was generated from the following files:

/media/home/debian/src/github/tesseract-ocr/tesseract/src/lstm/weightmatrix.h
/media/home/debian/src/github/tesseract-ocr/tesseract/src/lstm/weightmatrix.cpp

Public Member Functions

Detailed Description

Constructor & Destructor Documentation

◆ WeightMatrix()

Member Function Documentation

◆ AddDeltas()

◆ ConvertToInt()

◆ CountAlternators()

◆ Debug2D()

◆ DeSerialize()

◆ DeSerializeOld()

◆ GetDW()

◆ GetWeights()

◆ InitBackward()

◆ InitWeightsFloat()

◆ is_int_mode()

◆ MatrixDotVector() [1/2]

◆ MatrixDotVector() [2/2]

◆ MultiplyAccumulate()

◆ NumOutputs()

◆ RemapOutputs()

◆ RoundInputs()

◆ Serialize()

◆ SumOuterTransposed()

◆ Update()

◆ VectorDotMatrix()